BestBlogs.dev

删除 95% 的 Agent Skills 后,WorkOS 如何让智能体结果变好 (opens in new tab)

📌 One-Sentence Summary Nick Nisi 认为,可靠的智能体工作流不是靠庞大的 prompt 包或自动生成的 skills,而是靠状态机、可验证证据和经过度量的最小上下文。 📝 Summary 这场分享是一个把 AI 智能体从演示推进到可反复交付系统的工程案例。Nick Nisi 介绍了 WorkOS 内部的 Case harness:它最初只是一个 Claude skill,后来被重建为 TypeScript 状态机,包含实现、验证、评审、收尾和复盘等多个智能体。核心经验是,不能相信智能体自己报告任务完成,而要让它在进入人工评审前产出证据,例如测试输出 hash 或 UI 录屏。后半部分同样有价值:WorkOS 一开始生成了超过 10,000 行产品 skills,但通过 eval 发现额外上下文反而让部分任务变差。最后他们改成 553 行手写 gotchas,把 eval 时间从 68 分钟降到 6 分钟,结果也更好。 💡 Main Points 智能体可靠性来自工作流强制证据,而不是相信自我汇报 Nisi 把最初基于 skill 的方案重建为状态机,...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help