Flow-OPD把GenEval从63拉到92 (opens in new tab)
图像生成对齐和 LLM 后训练正在共享同一套工具栈:Flow-OPD 把 On-Policy Distillation 搬到流匹配,SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94,比直接跑 GRPO 高约 10 分。 测试时扩展策略可以搜出来而不是调出来:AutoTTS 把研究者的任务上移一层——不再设计策略,而是搭一个「发现环境」,160 分钟、39.9 美元搜到的策略能跨 benchmark 和模型规模迁移。 agent 的延迟瓶颈常常在被串行化掉的并行机会,HyperEyes 把同一轮里独立的子检索改成并行原子动作,30B 版本准确率高 9.9%、tool-call 轮数少 5.3 倍。 物理交互数据终于进入百万小时量级:HumanNet 100 万小时人类活动视频,第一/第三人称双视角;1000 小时第一人称视频继续训练超过 100 小时真实机器人数据。 一份 LoRA adapter 同时给云端和边缘用:MatryoshkaLoRA 把 rank 改成嵌套层次,部署时按设备能力切档,相比 DyLoRA 在高 rank ...
Read the original article