语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 (opens in new tab)
📌 One-Sentence Summary 本文对前沿 ASR 系统在四种语言对的语码转换语音上进行了基准测试,发现 ElevenLabs Scribe V2、Gemini 3 Flash 和 AssemblyAI 等顶级模型处理双语输入时性能损失小得惊人,而错误主要集中在嵌入的英语片段上。 📝 Summary 本文介绍了一项系统性基准测试,评估了七种 ASR 系统在企业场景下处理语码转换语音的能力。作者使用 HR 和 IT 支持场景构建了一个涵盖四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的合成数据集。他们使用三个指标评估模型:WER、语义 WER(SWER)和答案错误率(AER)。主要发现包括:ElevenLabs Scribe V2、Gemini 3 Flash 和 AssemblyAI Universal 3-Pro 是表现最好的模型;语码转换对顶级模型带来的性能损失虽小但可控;语言切换次数越多,错误可能性越大,但错误严重程度与语码混合指数(CMI)正相关;反直觉的是,错误集中在话语的英语部分。该基准测试和评估工具(AU-Harness)已公开...
Read the original article