训练AI只需要跑完前10%，剩下的90%都能在小模型上跑 (opens in new tab)

（来源：麻省理工科技评论）训练一个大型 AI 模型的代价很高，不只是钱，还包括时间、能源和算力。要得到一个更小、更快的模型，传统做法要么是先训练一个庞大的模型再削减它，要么是直接从头训练一个小模型，但接受性能上的妥协。MIT 计算机科学与人工智能实验室（CSAIL）、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室（ELLIS）、苏黎世联邦理工学院（ETH）和 Liquid AI 的研究人员共同提出了一种新方法，直接绕过了这个二选一的难题：在训练过程中就对模型进行压缩，而不是在训练之后。这项技术叫 CompreSSM，针对的是一类叫做“状态空间模型”（state-space models）的 AI 架构。这类架构支撑着从语言处理、音频生成到机器人控制的广泛应用。研究人员借用控制论里的数学工具，在训练早期就能识别出模型中哪些部分是在真正发挥作用、哪些是累赘，然后把那些多余的部分精准地切除掉。“本质上这是一种让模型在训练过程中变小、变快的技术，”论文第一作者、CSAIL 成员、电气工程与计算机科学系的博士生马克拉姆·查希内（Makram Chahine）说，“学习过程中，模型也...

Read the original article