BestBlogs.dev

训练前沿小模型的全部经验 | Maxime Labonne,Liquid AI (opens in new tab)

📌 One-Sentence Summary Maxime Labonne 解释了为什么前沿小模型不能只靠大模型蒸馏,而需要专门的架构、极大的 token 预算、on-policy 对齐和工具调用能力。 📝 Summary 这场 AI Engineer 演讲是一段信息密度很高的技术分享,主讲人是 Liquid AI 的 pre-training 负责人 Maxime Labonne。它最大的价值在于,把小模型视为一个独立设计空间,而不是大模型的缩小版。Labonne 解释了小模型为什么受内存限制、对延迟高度敏感,并且常常面向特定任务,然后把这些约束连接到架构选择上,例如 gated short convolutions 和更小的 embedding 层。最有技术含量的部分是对 Chinchilla 式 scaling 假设的挑战:Liquid AI 用 28 万亿 token 训练 350M 参数模型,说明极小模型在异常大的 token 预算下仍能继续获得能力提升。post-training 部分也很实用,覆盖 narrow SFT、DPO、on-policy preferenc...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help