Voice AI 何时迎来「Her」时刻? (opens in new tab)
📌 One-Sentence Summary Neil Zeghidour 从延迟、全双工交互、工具调用等待和本地 TTS 经济性出发,解释为什么语音 AI 仍未真正达到电影《Her》中的自然体验。 📝 Summary 这场 AI Engineer 演讲对当前语音 AI 前沿做了兼具技术和产品判断的拆解。Gradium AI 联合创始人 Neil Zeghidour 指出,行业反复宣称已经迎来「Her 时刻」,但这掩盖了几个尚未解决的工程问题。核心批评是,多数生产级 voice agent 仍依赖 STT 到 LLM 再到 TTS 的级联系统。这类架构实用、智能性也在提升,但顺序执行天然难以满足人类对话的延迟要求:自然对话希望理解、推理和发声的完整闭环大约在 200 毫秒内完成,而单是 TTS 就可能吃掉这个预算,工具调用还会额外带来数秒等待。演讲也说明了为什么直接转向 speech-to-speech 模型并不够。半双工系统无法自然处理打断、重叠说话和 back-channeling,而 Moshi 这样的全双工模型更接近真实对话,却仍缺少级联系统在可靠性、智能性、可观测性和工...
Read the original article