大模型也要睡觉，而且睡得越久推理越强？ (opens in new tab)

人需要睡觉，很大程度上是为了整理记忆。神经科学的主流理论认为，人在白天形成的短期记忆存储在海马体中，睡眠期间海马体反复重放这些记忆，逐步将其固化到大脑皮层的突触连接里。尽管睡眠会让动物的警觉性大幅下降，提高它们被捕食的风险，但自然选择始终没有淘汰掉它，足见这个过程对生存的价值。既然生物都是如此，那么大模型呢？近期，卡内基梅隆大学和马里兰大学的一个研究团队从这个过程中获得启发，给语言模型也设计了一套类似的机制。他们 5 月 27 日在 arXiv 发表一篇题为《语言模型需要睡眠吗？通过离线循环提升在线推理性能》（Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference）的论文提出：当模型的上下文窗口装满时，不急着丢弃注意力缓存，而是先进入一个“睡眠”阶段，对当前窗口内的内容执行 N 次离线递归前向传播，将信息逐步写入状态空间模型（state-space model，SSM）层的快速权重中。睡醒之后注意力缓存清空，模型带着更新后的权重继续处理新输入。和真正的睡眠一样，模型在这个阶段不...

Read the original article