IT之家

网易发布 Confucius4-TTS:业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型,3 秒音频即可克隆音色 (opens in new tab)

IT之家 6 月 23 日消息,网易有道今日发文,宣布推出“子曰 4.0”TTS 语音合成引擎 ——Confucius4-TTS。据网易有道官方介绍,Confucius4-TTS 是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。在技术性能方面,Confucius4-TTS 实现了零样本语音克隆能力。用户仅需提供 3 秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,克隆音色与原声相似度超过 85%,克隆任务准确度达 97%。据介绍,该模型全面支持中文、英语、西班牙语、法语、德语、韩语、泰语、越南语等 14 种语言的自然流利表达。其核心突破在于解决了语音合成领域长期存在的跨语种口音问题 —— 用户上传中文音频,AI 即可用该音色流利说出日语、英语等外语,发音地道自然。在情感表达方面,Confucius4-TTS 区别于传统 TTS 依赖文本标签控制情感的粗放方式,创新性地支持音频 Prompt 情感克隆迁移。系统可自动提取参考音频中的情感特征,精准复刻其语调、韵律,实现跨语种无损迁移。在底层架构上,Confucius4-TTS 实现了全面...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help