通过 Responses API 中的 WebSockets 加速智能体工作流 (opens in new tab)

📌 One-Sentence Summary OpenAI 工程师详细介绍了他们如何重新设计 Responses API 以使用持久的 WebSocket 连接，通过消除冗余的网络开销并让 GPT‑5.3‑Codex‑Spark 等更快的模型充分发挥其推理速度潜力，将智能体工作流延迟降低了高达 40%。 📝 Summary 这篇来自 OpenAI 的工程博客文章解释了对其 Responses API 的一项重要性能优化，特别针对像 Codex 所使用的智能体工作流。随着模型推理速度的急剧提升（从每秒 65 个 token 提升到近 1000 个），传统同步 HTTP API 调用的开销成为了瓶颈。解决方案是实施一种基于 WebSocket 的持久连接模式。这使得 API 能够在多个智能体步骤之间在内存中缓存对话状态、工具定义和已渲染的 token，从而无需在每个请求中重新处理完整的历史记录。关键的优化包括仅处理新输入以进行安全检查、重用采样结果以及重叠非阻塞任务。结果是智能体部署的端到端速度提升了高达 40%，这一点已通过与 Vercel 的 AI SDK、Cline 和 Cur...

Read the original article