为你的智能体添加语音功能 (opens in new tab)
📌 One-Sentence Summary Cloudflare 为其 Agents SDK 引入了一个实验性的语音管道,使开发者能够为现有的 AI 智能体添加实时语音功能,而无需单独的架构,同时保持共享状态、工具和持久性。 📝 Summary 本文宣布发布 `@cloudflare/voice` 实验性包,该包将实时语音功能集成到 Cloudflare Agents SDK 中。它允许开发者扩展现有的基于文本的 AI 智能体,以支持语音交互,使用相同的 Durable Object 架构、SQLite 支持的对话历史和 WebSocket 连接。该包提供了高级抽象,如 `withVoice` 和 `withVoiceInput`,内置了用于语音转文本和文本转语音的 Workers AI 提供商,以及用于客户端集成的 React hooks。文章解释了从音频捕获到合成的技术管道,强调了统一状态模型对于多模态交互的优势,并演示了实际用例,包括工具、调度、运行时模型切换以及通过 Twilio 等适配器进行的电话集成。它将该产品定位为提供商无关的,并邀请更广泛的语音生态系统进行合作。...
Read the original article