末层偷改答案,早层解码反更准 (opens in new tab)
大模型最后几层在为对齐偷改正确答案:早层粗猜、中层把推理语义打磨清楚,末层却把磨好的预测往「更通用、更对齐」的token方向拖偏,Confident Decoding改从confident的早层解码绕开扰动,training-free、零显存、企业里agent真正要干的活,第一次有了真实样本:EnterpriseClawBench从真实workplace session还原852个带fixture的可复现任务,最强配置(Codex搭GPT-5.5)也只到0.663,离放心交付还有距离。 训练terminal agent卡住的不是算法,是数据:Tmax用9B加简单的outcome-only recipe在Terminal-Bench 2.0拿到27%、打平更大的模型,同期CLI-Universe专造可验证任务,两篇矛头都指向训练数据这一层。 一个模型原生打通分子与蛋白的序列、结构、语言:BioMatrix用decoder-only架构在80个任务里77个做到SOTA或接近,做药物、蛋白工程不用再拼几个专用模型——不过全SOTA的说法需要核实各任务基线强度。 把passage计算搬到...
Read the original article