美团LongCat团队近期正式推出并开源了数字人视频模型LongCat-Video-Avatar 1.5,标志着该模型从开源领域的顶尖水平向商业级应用迈进。此次模型升级重点包括采用Whisper-large音频编码器,构建了覆盖多场景的高质量数据体系,并引入逐帧级GRPO偏好对齐技术,使得模型在唇形同步效果、物理动作合理性、长视频生成稳定性以及多人互动场景表现等方面均实现全面提升。同时,该模型通过DMD蒸馏技术实现仅需8步即可完成生成过程,效率较此前版本提升约15倍。
美团LongCat团队近期正式推出并开源了数字人视频模型LongCat-Video-Avatar 1.5,标志着该模型从开源领域的顶尖水平向商业级应用迈进。此次模型升级重点包括采用Whisper-large音频编码器,构建了覆盖多场景的高质量数据体系,并引入逐帧级GRPO偏好对齐技术,使得模型在唇形同步效果、物理动作合理性、长视频生成稳定性以及多人互动场景表现等方面均实现全面提升。同时,该模型通过DMD蒸馏技术实现仅需8步即可完成生成过程,效率较此前版本提升约15倍。