网易有道正式开源旗下TTS语音合成模型Confucius4-TTS。该模型实现了三项核心突破:仅需3秒语音即可完成零样本克隆、支持14种语言跨语种无口音合成,以及情感韵律迁移功能。在技术架构上,模型采用语音编码器、大语言模型与流匹配生成相结合的端到端设计,配备完整54G权重文件,可支持本地离线部署使用。
网易有道正式开源旗下TTS语音合成模型Confucius4-TTS。该模型实现了三项核心突破:仅需3秒语音即可完成零样本克隆、支持14种语言跨语种无口音合成,以及情感韵律迁移功能。在技术架构上,模型采用语音编码器、大语言模型与流匹配生成相结合的端到端设计,配备完整54G权重文件,可支持本地离线部署使用。