美团LongCat团队推出了名为LongCat-AudioDiT的语音合成模型,该模型在零样本音色克隆任务上取得了SOTA(State-of-the-Art,最先进)性能。与传统方法不同,该模型直接在波形潜空间中进行扩散生成,不再依赖梅尔频谱这一中间表示形式,从而有效避免了信息损失。此外,LongCat-AudioDiT创新性地提出了双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术,成功解决了训练与推理过程中的不匹配问题,并缓解了过饱和现象。