Gemini 3.1 Flash TTS:下一代富有表现力的 AI 语音 (opens in new tab)
📌 One-Sentence Summary Google DeepMind 推出 Gemini 3.1 Flash TTS,这是一款新的文本转语音模型,提供增强的表现力、通过自然语言音频标签实现的可控性、支持 70 多种语言,并内置用于 AI 内容检测的 SynthID 水印。 📝 Summary Google DeepMind 宣布预览版发布其最新的文本转语音模型 Gemini 3.1 Flash TTS。该模型被定位为迄今为止最自然、最具表现力的模型,在 Artificial Analysis TTS 排行榜上获得了很高的 Elo 分数(1,211)。关键创新包括引入了“音频标签”——嵌入在文本输入中的自然语言指令,允许对声音风格、节奏和表达方式进行精细控制。该模型支持多说话人对话和超过 70 种语言。对于开发者,Google AI Studio 中的新控件支持“场景指导”和“说话人级别特异性”,用于创建沉浸式音频体验。所有生成的音频都包含一个不可感知的 SynthID 水印,用于内容溯源。该模型可通过 Gemini API、Google AI Studio、面向企业的 V...
Read the original article