训练前沿小模型的全部经验 | Maxime Labonne，Liquid AI (opens in new tab)

📌 One-Sentence Summary Maxime Labonne 解释了为什么前沿小模型不能只靠大模型蒸馏，而需要专门的架构、极大的 token 预算、on-policy 对齐和工具调用能力。 📝 Summary 这场 AI Engineer 演讲是一段信息密度很高的技术分享，主讲人是 Liquid AI 的 pre-training 负责人 Maxime Labonne。它最大的价值在于，把小模型视为一个独立设计空间，而不是大模型的缩小版。Labonne 解释了小模型为什么受内存限制、对延迟高度敏感，并且常常面向特定任务，然后把这些约束连接到架构选择上，例如 gated short convolutions 和更小的 embedding 层。最有技术含量的部分是对 Chinchilla 式 scaling 假设的挑战：Liquid AI 用 28 万亿 token 训练 350M 参数模型，说明极小模型在异常大的 token 预算下仍能继续获得能力提升。post-training 部分也很实用，覆盖 narrow SFT、DPO、on-policy preferenc...

Read the original article