通义实验室正式开源其研发的Fun-CineForge模型,这是国内首个支持影视级配音的多模态大模型。该模型不仅配套开放了高质量数据集构建方法CineDub,还基于CosyVoice3的底层技术能力,创新性地引入’时间模态’,将视觉、文本、音频与时间四种模态深度融合,从而实现了口型精准同步、丰富情绪表达、稳定音色一致以及精准时间对齐四大核心功能,可广泛应用于独白、旁白、双人对话及多人对话等多样化场景。
通义实验室正式开源其研发的Fun-CineForge模型,这是国内首个支持影视级配音的多模态大模型。该模型不仅配套开放了高质量数据集构建方法CineDub,还基于CosyVoice3的底层技术能力,创新性地引入’时间模态’,将视觉、文本、音频与时间四种模态深度融合,从而实现了口型精准同步、丰富情绪表达、稳定音色一致以及精准时间对齐四大核心功能,可广泛应用于独白、旁白、双人对话及多人对话等多样化场景。