末层偷改答案，早层解码反更准 (opens in new tab)

大模型最后几层在为对齐偷改正确答案：早层粗猜、中层把推理语义打磨清楚，末层却把磨好的预测往「更通用、更对齐」的token方向拖偏，Confident Decoding改从confident的早层解码绕开扰动，training-free、零显存、企业里agent真正要干的活，第一次有了真实样本：EnterpriseClawBench从真实workplace session还原852个带fixture的可复现任务，最强配置（Codex搭GPT-5.5）也只到0.663，离放心交付还有距离。训练terminal agent卡住的不是算法，是数据：Tmax用9B加简单的outcome-only recipe在Terminal-Bench 2.0拿到27%、打平更大的模型，同期CLI-Universe专造可验证任务，两篇矛头都指向训练数据这一层。一个模型原生打通分子与蛋白的序列、结构、语言：BioMatrix用decoder-only架构在80个任务里77个做到SOTA或接近，做药物、蛋白工程不用再拼几个专用模型——不过全SOTA的说法需要核实各任务基线强度。把passage计算搬到...

Read the original article