语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试 (opens in new tab)

📌 One-Sentence Summary 本文对前沿 ASR 系统在四种语言对的语码转换语音上进行了基准测试，发现 ElevenLabs Scribe V2、Gemini 3 Flash 和 AssemblyAI 等顶级模型处理双语输入时性能损失小得惊人，而错误主要集中在嵌入的英语片段上。 📝 Summary 本文介绍了一项系统性基准测试，评估了七种 ASR 系统在企业场景下处理语码转换语音的能力。作者使用 HR 和 IT 支持场景构建了一个涵盖四种语言对（西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语）的合成数据集。他们使用三个指标评估模型：WER、语义 WER（SWER）和答案错误率（AER）。主要发现包括：ElevenLabs Scribe V2、Gemini 3 Flash 和 AssemblyAI Universal 3-Pro 是表现最好的模型；语码转换对顶级模型带来的性能损失虽小但可控；语言切换次数越多，错误可能性越大，但错误严重程度与语码混合指数（CMI）正相关；反直觉的是，错误集中在话语的英语部分。该基准测试和评估工具（AU-Harness）已公开...

Read the original article