mittrchina.com

训练AI只需要跑完前10%,剩下的90%都能在小模型上跑 (opens in new tab)

(来源:麻省理工科技评论)训练一个大型 AI 模型的代价很高,不只是钱,还包括时间、能源和算力。要得到一个更小、更快的模型,传统做法要么是先训练一个庞大的模型再削减它,要么是直接从头训练一个小模型,但接受性能上的妥协。MIT 计算机科学与人工智能实验室(CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室(ELLIS)、苏黎世联邦理工学院(ETH)和 Liquid AI 的研究人员共同提出了一种新方法,直接绕过了这个二选一的难题:在训练过程中就对模型进行压缩,而不是在训练之后。这项技术叫 CompreSSM,针对的是一类叫做“状态空间模型”(state-space models)的 AI 架构。这类架构支撑着从语言处理、音频生成到机器人控制的广泛应用。研究人员借用控制论里的数学工具,在训练早期就能识别出模型中哪些部分是在真正发挥作用、哪些是累赘,然后把那些多余的部分精准地切除掉。“本质上这是一种让模型在训练过程中变小、变快的技术,”论文第一作者、CSAIL 成员、电气工程与计算机科学系的博士生马克拉姆·查希内(Makram Chahine)说,“学习过程中,模型也...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help