BestBlogs.dev

Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 (opens in new tab)

📌 One-Sentence Summary Cursor 与 Fireworks 解释了 Composer 2 如何结合专用模型训练、大规模 RL、分布式 rollout 基础设施、数值对齐和自我总结,构建能完成长周期软件工程任务的编码智能体。 📝 Summary 这场 Sequoia 对 Cursor 的 Federico 和 Fireworks 的 Dimma 的访谈,提供了一个少见的一手视角,展示 Composer 2 背后的系统设计与训练取舍。讨论解释了 Cursor 为什么从依赖通用模型 API,转向为 Cursor 内的软件工程场景打造专用基础模型,并进一步拆解了两条核心路线:面向大规模代码数据的持续预训练,以及在产品 harness 中进行的大规模强化学习。最有价值的部分集中在异步 RL 流水线、受限 GPU 集群上的全球 rollout 分发、无损 delta 权重压缩、稀疏 MoE 模型中的数值不一致、router replay 跟踪、实时在线 RL,以及面向百万 token 长周期任务的自我总结。对于 AI 基础设施建设者来说,它把模型行为、奖励设计、推理效...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help