训练前沿小模型的全部经验 | Maxime Labonne,Liquid AI (opens in new tab)
📌 One-Sentence Summary Maxime Labonne 解释了为什么前沿小模型不能只靠大模型蒸馏,而需要专门的架构、极大的 token 预算、on-policy 对齐和工具调用能力。 📝 Summary 这场 AI Engineer 演讲是一段信息密度很高的技术分享,主讲人是 Liquid AI 的 pre-training 负责人 Maxime Labonne。它最大的价值在于,把小模型视为一个独立设计空间,而不是大模型的缩小版。Labonne 解释了小模型为什么受内存限制、对延迟高度敏感,并且常常面向特定任务,然后把这些约束连接到架构选择上,例如 gated short convolutions 和更小的 embedding 层。最有技术含量的部分是对 Chinchilla 式 scaling 假设的挑战:Liquid AI 用 28 万亿 token 训练 350M 参数模型,说明极小模型在异常大的 token 预算下仍能继续获得能力提升。post-training 部分也很实用,覆盖 narrow SFT、DPO、on-policy preferenc...
Read the original article