NVIDIA五模态压进一套权重 (opens in new tab)
NVIDIA把语言、图像、视频、音频、动作塞进一套权重:Cosmos 3用一套mixture-of-transformers赌「单模型通吃所有模态」,第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。 同一个KV量化方法,prefill里没事、长解码里越错越离谱:KVarN指出误差会跨时间步累积,用方差归一化压住离群token-scale,2-bit拿下KV量化新SOTA,免标定、有vLLM实现。 把上下文里临时学到的东西写回权重:「语言模型需要睡眠」撇开隐喻,机制是蒸馏加合成数据自演练;但「写什么」和「防遗忘」两个硬问题摘要没正面回答。 采样预算从手调阈值变成可学习策略:把「采多少样」形式化成MDP,用RL训一个CPU上就能跑的小控制器,在「少采样还不掉点」上比强基线拿到更好折中。
Read the original article