BestBlogs.dev

Voice AI 何时迎来「Her」时刻? (opens in new tab)

📌 One-Sentence Summary Neil Zeghidour 从延迟、全双工交互、工具调用等待和本地 TTS 经济性出发,解释为什么语音 AI 仍未真正达到电影《Her》中的自然体验。 📝 Summary 这场 AI Engineer 演讲对当前语音 AI 前沿做了兼具技术和产品判断的拆解。Gradium AI 联合创始人 Neil Zeghidour 指出,行业反复宣称已经迎来「Her 时刻」,但这掩盖了几个尚未解决的工程问题。核心批评是,多数生产级 voice agent 仍依赖 STT 到 LLM 再到 TTS 的级联系统。这类架构实用、智能性也在提升,但顺序执行天然难以满足人类对话的延迟要求:自然对话希望理解、推理和发声的完整闭环大约在 200 毫秒内完成,而单是 TTS 就可能吃掉这个预算,工具调用还会额外带来数秒等待。演讲也说明了为什么直接转向 speech-to-speech 模型并不够。半双工系统无法自然处理打断、重叠说话和 back-channeling,而 Moshi 这样的全双工模型更接近真实对话,却仍缺少级联系统在可靠性、智能性、可观测性和工...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help