Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 (opens in new tab)

📌 One-Sentence Summary Cursor 与 Fireworks 解释了 Composer 2 如何结合专用模型训练、大规模 RL、分布式 rollout 基础设施、数值对齐和自我总结，构建能完成长周期软件工程任务的编码智能体。 📝 Summary 这场 Sequoia 对 Cursor 的 Federico 和 Fireworks 的 Dimma 的访谈，提供了一个少见的一手视角，展示 Composer 2 背后的系统设计与训练取舍。讨论解释了 Cursor 为什么从依赖通用模型 API，转向为 Cursor 内的软件工程场景打造专用基础模型，并进一步拆解了两条核心路线：面向大规模代码数据的持续预训练，以及在产品 harness 中进行的大规模强化学习。最有价值的部分集中在异步 RL 流水线、受限 GPU 集群上的全球 rollout 分发、无损 delta 权重压缩、稀疏 MoE 模型中的数值不一致、router replay 跟踪、实时在线 RL，以及面向百万 token 长周期任务的自我总结。对于 AI 基础设施建设者来说，它把模型行为、奖励设计、推理效...

Read the original article