8B模型科学推理反超235B (opens in new tab)
多轮agent训练贵在决策密度,不在horizon长度:Mila把成本重新算了一遍——真正稀释信号的是大量「reward等价」的例行动作,信噪比随决策密度ρ^(-1/2)衰减在受控环境里被复现到R²=0.999。 RLVR搬到科学领域,涨分未必等于真泛化:Mat-Pref把测试集切成分布内、未见结构家族、跨性质迁移三块,发现GRPO相对SFT的增益更像重塑分布而非学到新知识,8B两阶段训练能在held-out家族上反超235B零样本20多个点。 蛋白质模型预测很准,归因却对不上真实表位:ETH以真实过敏原epitope为基准,发现residue级归因和真实表位的对齐跟随机猜没有显著差别,高风险筛查里把归因当生物学证据是危险的过度解读。 「BC预训练再上AIL」这个老技巧,终于有了理论保证:CoPT-AIL指出真正的瓶颈是奖励函数从头学的误差,把策略和奖励一起预训练,证明模仿差距上界优于标准AIL。
Read the original article