训练AI只需要跑完前10%,剩下的90%都能在小模型上跑 (opens in new tab)
(来源:麻省理工科技评论)训练一个大型 AI 模型的代价很高,不只是钱,还包括时间、能源和算力。要得到一个更小、更快的模型,传统做法要么是先训练一个庞大的模型再削减它,要么是直接从头训练一个小模型,但接受性能上的妥协。MIT 计算机科学与人工智能实验室(CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室(ELLIS)、苏黎世联邦理工学院(ETH)和 Liquid AI 的研究人员共同提出了一种新方法,直接绕过了这个二选一的难题:在训练过程中就对模型进行压缩,而不是在训练之后。这项技术叫 CompreSSM,针对的是一类叫做“状态空间模型”(state-space models)的 AI 架构。这类架构支撑着从语言处理、音频生成到机器人控制的广泛应用。研究人员借用控制论里的数学工具,在训练早期就能识别出模型中哪些部分是在真正发挥作用、哪些是累赘,然后把那些多余的部分精准地切除掉。“本质上这是一种让模型在训练过程中变小、变快的技术,”论文第一作者、CSAIL 成员、电气工程与计算机科学系的博士生马克拉姆·查希内(Makram Chahine)说,“学习过程中,模型也...
Read the original article