丢几张参考图就给新物体估姿态 (opens in new tab)
新物体上线,从「准备CAD」压到「丢几张参考图」:PANY用多视角几何骨干替代单锚点配对,YCB-V姿态精度+12%、LM-O超过+20%,对做具身抓取的团队,这条成本曲线比单个精度数字更值得看。 基础模型改不动,就在它后面挂个补丁:PEPA冻结编码器、只加0.26M参数的plug-in,专治曲线分割的细结构丢失和阈值卡不准,clDice涨幅大于IoU——修的是「断不断」而非「准不准」。 模型说在看图,其实在背语料:CFPO用「抹掉图看答案变不变」的反事实信号,给VLM的视觉推理补上因果约束,能直接挂在GRPO/DAPO上;提升只有个位数百分点,诊断比数字更有价值。
Read the original article