Voice AI 何时迎来「Her」时刻？ (opens in new tab)

📌 One-Sentence Summary Neil Zeghidour 从延迟、全双工交互、工具调用等待和本地 TTS 经济性出发，解释为什么语音 AI 仍未真正达到电影《Her》中的自然体验。 📝 Summary 这场 AI Engineer 演讲对当前语音 AI 前沿做了兼具技术和产品判断的拆解。Gradium AI 联合创始人 Neil Zeghidour 指出，行业反复宣称已经迎来「Her 时刻」，但这掩盖了几个尚未解决的工程问题。核心批评是，多数生产级 voice agent 仍依赖 STT 到 LLM 再到 TTS 的级联系统。这类架构实用、智能性也在提升，但顺序执行天然难以满足人类对话的延迟要求：自然对话希望理解、推理和发声的完整闭环大约在 200 毫秒内完成，而单是 TTS 就可能吃掉这个预算，工具调用还会额外带来数秒等待。演讲也说明了为什么直接转向 speech-to-speech 模型并不够。半双工系统无法自然处理打断、重叠说话和 back-channeling，而 Moshi 这样的全双工模型更接近真实对话，却仍缺少级联系统在可靠性、智能性、可观测性和工...

Read the original article