20B搜索器外置状态打平前沿 (opens in new tab)
给搜索agent删过期观察省上下文,收益是倒U形而非单调:从4B到284B、三种检索器扫一遍,强检索器配中等模型最划算,模型本身够强时反而把有用证据也删掉、准确率掉点。 把「记账」从策略外置给环境,20B搜索器平均recall 0.730:比次强开源搜索子agent高11.4分,还在held-out迁移benchmark上提升最明显。 报告里塞图容易,塞对没人验过:TVIR用100个专家curate的多模态深研任务,把「视觉元素的事实可靠性和与正文对齐」单独拎出来当评测维度。 零标注教模型推断意图:MindZero用planner的行为可解释性当自监督奖励,训练用重推理、部署蒸成单次前向,在gridworld和家居场景超过又慢又贵的model-based方法。
Read the original article