8B模型科学推理反超235B (opens in new tab)

多轮agent训练贵在决策密度，不在horizon长度：Mila把成本重新算了一遍——真正稀释信号的是大量「reward等价」的例行动作，信噪比随决策密度ρ^(-1/2)衰减在受控环境里被复现到R²=0.999。 RLVR搬到科学领域，涨分未必等于真泛化：Mat-Pref把测试集切成分布内、未见结构家族、跨性质迁移三块，发现GRPO相对SFT的增益更像重塑分布而非学到新知识，8B两阶段训练能在held-out家族上反超235B零样本20多个点。蛋白质模型预测很准，归因却对不上真实表位：ETH以真实过敏原epitope为基准，发现residue级归因和真实表位的对齐跟随机猜没有显著差别，高风险筛查里把归因当生物学证据是危险的过度解读。「BC预训练再上AIL」这个老技巧，终于有了理论保证：CoPT-AIL指出真正的瓶颈是奖励函数从头学的误差，把策略和奖励一起预训练，证明模仿差距上界优于标准AIL。

Read the original article