删除 95% 的 Agent Skills 后，WorkOS 如何让智能体结果变好 (opens in new tab)

📌 One-Sentence Summary Nick Nisi 认为，可靠的智能体工作流不是靠庞大的 prompt 包或自动生成的 skills，而是靠状态机、可验证证据和经过度量的最小上下文。 📝 Summary 这场分享是一个把 AI 智能体从演示推进到可反复交付系统的工程案例。Nick Nisi 介绍了 WorkOS 内部的 Case harness：它最初只是一个 Claude skill，后来被重建为 TypeScript 状态机，包含实现、验证、评审、收尾和复盘等多个智能体。核心经验是，不能相信智能体自己报告任务完成，而要让它在进入人工评审前产出证据，例如测试输出 hash 或 UI 录屏。后半部分同样有价值：WorkOS 一开始生成了超过 10，000 行产品 skills，但通过 eval 发现额外上下文反而让部分任务变差。最后他们改成 553 行手写 gotchas，把 eval 时间从 68 分钟降到 6 分钟，结果也更好。 💡 Main Points 智能体可靠性来自工作流强制证据，而不是相信自我汇报 Nisi 把最初基于 skill 的方案重建为状态机，...

Read the original article