8B模型科学推理反超235B (opens in new tab)

多轮agent训练贵在决策密度,不在horizon长度:Mila把成本重新算了一遍——真正稀释信号的是大量「reward等价」的例行动作,信噪比随决策密度ρ^(-1/2)衰减在受控环境里被复现到R²=0.999。 RLVR搬到科学领域,涨分未必等于真泛化:Mat-Pref把测试集切成分布内、未见结构家族、跨性质迁移三块,发现GRPO相对SFT的增益更像重塑分布而非学到新知识,8B两阶段训练能在held-out家族上反超235B零样本20多个点。 蛋白质模型预测很准,归因却对不上真实表位:ETH以真实过敏原epitope为基准,发现residue级归因和真实表位的对齐跟随机猜没有显著差别,高风险筛查里把归因当生物学证据是危险的过度解读。 「BC预训练再上AIL」这个老技巧,终于有了理论保证:CoPT-AIL指出真正的瓶颈是奖励函数从头学的误差,把策略和奖励一起预训练,证明模仿差距上界优于标准AIL。

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help