为你的智能体添加语音功能 (opens in new tab)

📌 One-Sentence Summary Cloudflare 为其 Agents SDK 引入了一个实验性的语音管道，使开发者能够为现有的 AI 智能体添加实时语音功能，而无需单独的架构，同时保持共享状态、工具和持久性。 📝 Summary 本文宣布发布 `@cloudflare/voice` 实验性包，该包将实时语音功能集成到 Cloudflare Agents SDK 中。它允许开发者扩展现有的基于文本的 AI 智能体，以支持语音交互，使用相同的 Durable Object 架构、SQLite 支持的对话历史和 WebSocket 连接。该包提供了高级抽象，如 `withVoice` 和 `withVoiceInput`，内置了用于语音转文本和文本转语音的 Workers AI 提供商，以及用于客户端集成的 React hooks。文章解释了从音频捕获到合成的技术管道，强调了统一状态模型对于多模态交互的优势，并演示了实际用例，包括工具、调度、运行时模型切换以及通过 Twilio 等适配器进行的电话集成。它将该产品定位为提供商无关的，并邀请更广泛的语音生态系统进行合作。...

Read the original article