通义实验室正式开源Fun-CineForge——其首个具备影视级配音能力的多模态大模型,并同步开放配套的高质量数据集构建方案CineDub。该模型依托CosyVoice3的底层技术基础,创新性融入“时间模态”,将视觉、文本、音频与时间四种模态深度融合,成功实现口型同步、情绪精准表达、音色高度一致及时间精准对齐四大核心功能,可广泛支持独白、旁白、双人对话及多人对话等多元应用场景。