Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 (opens in new tab)
📌 One-Sentence Summary Cursor 与 Fireworks 解释了 Composer 2 如何结合专用模型训练、大规模 RL、分布式 rollout 基础设施、数值对齐和自我总结,构建能完成长周期软件工程任务的编码智能体。 📝 Summary 这场 Sequoia 对 Cursor 的 Federico 和 Fireworks 的 Dimma 的访谈,提供了一个少见的一手视角,展示 Composer 2 背后的系统设计与训练取舍。讨论解释了 Cursor 为什么从依赖通用模型 API,转向为 Cursor 内的软件工程场景打造专用基础模型,并进一步拆解了两条核心路线:面向大规模代码数据的持续预训练,以及在产品 harness 中进行的大规模强化学习。最有价值的部分集中在异步 RL 流水线、受限 GPU 集群上的全球 rollout 分发、无损 delta 权重压缩、稀疏 MoE 模型中的数值不一致、router replay 跟踪、实时在线 RL,以及面向百万 token 长周期任务的自我总结。对于 AI 基础设施建设者来说,它把模型行为、奖励设计、推理效...
Read the original article