BestBlogs.dev

通过 Responses API 中的 WebSockets 加速智能体工作流 (opens in new tab)

📌 One-Sentence Summary OpenAI 工程师详细介绍了他们如何重新设计 Responses API 以使用持久的 WebSocket 连接,通过消除冗余的网络开销并让 GPT‑5.3‑Codex‑Spark 等更快的模型充分发挥其推理速度潜力,将智能体工作流延迟降低了高达 40%。 📝 Summary 这篇来自 OpenAI 的工程博客文章解释了对其 Responses API 的一项重要性能优化,特别针对像 Codex 所使用的智能体工作流。随着模型推理速度的急剧提升(从每秒 65 个 token 提升到近 1000 个),传统同步 HTTP API 调用的开销成为了瓶颈。解决方案是实施一种基于 WebSocket 的持久连接模式。这使得 API 能够在多个智能体步骤之间在内存中缓存对话状态、工具定义和已渲染的 token,从而无需在每个请求中重新处理完整的历史记录。关键的优化包括仅处理新输入以进行安全检查、重用采样结果以及重叠非阻塞任务。结果是智能体部署的端到端速度提升了高达 40%,这一点已通过与 Vercel 的 AI SDK、Cline 和 Cur...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help