通义千问团队正式开源系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。
通义千问团队正式开源系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。