Flow-OPD把GenEval从63拉到92 (opens in new tab)

Covers 2 stories including Flow-OPD: On-Policy Distillation for Flow Matching Models

图像生成对齐和 LLM 后训练正在共享同一套工具栈：Flow-OPD 把 On-Policy Distillation 搬到流匹配，SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94，比直接跑 GRPO 高约 10 分。测试时扩展策略可以搜出来而不是调出来：AutoTTS 把研究者的任务上移一层——不再设计策略，而是搭一个「发现环境」，160 分钟、39.9 美元搜到的策略能跨 benchmark 和模型规模迁移。 agent 的延迟瓶颈常常在被串行化掉的并行机会，HyperEyes 把同一轮里独立的子检索改成并行原子动作，30B 版本准确率高 9.9%、tool-call 轮数少 5.3 倍。物理交互数据终于进入百万小时量级：HumanNet 100 万小时人类活动视频，第一/第三人称双视角；1000 小时第一人称视频继续训练超过 100 小时真实机器人数据。一份 LoRA adapter 同时给云端和边缘用：MatryoshkaLoRA 把 rank 改成嵌套层次，部署时按设备能力切档，相比 DyLoRA 在高 rank ...

Read the original article