Gemini 3.1 Flash TTS：下一代富有表现力的 AI 语音 (opens in new tab)

📌 One-Sentence Summary Google DeepMind 推出 Gemini 3.1 Flash TTS，这是一款新的文本转语音模型，提供增强的表现力、通过自然语言音频标签实现的可控性、支持 70 多种语言，并内置用于 AI 内容检测的 SynthID 水印。 📝 Summary Google DeepMind 宣布预览版发布其最新的文本转语音模型 Gemini 3.1 Flash TTS。该模型被定位为迄今为止最自然、最具表现力的模型，在 Artificial Analysis TTS 排行榜上获得了很高的 Elo 分数（1，211）。关键创新包括引入了“音频标签”——嵌入在文本输入中的自然语言指令，允许对声音风格、节奏和表达方式进行精细控制。该模型支持多说话人对话和超过 70 种语言。对于开发者，Google AI Studio 中的新控件支持“场景指导”和“说话人级别特异性”，用于创建沉浸式音频体验。所有生成的音频都包含一个不可感知的 SynthID 水印，用于内容溯源。该模型可通过 Gemini API、Google AI Studio、面向企业的 V...

Read the original article