小米大模型应用团队近日宣布开源可控视频音效生成模型ControlFoley,该模型可统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。通过采用联合视觉编码、时间-音色解耦与模态鲁棒训练等技术,ControlFoley有效解决了现有方案中文本控制能力弱、参考音频与视频难同步等痛点问题,并在VGGSound-Test等多个权威基准测试中取得了开源领域的SOTA( state-of-the-art,最先进)表现。
小米大模型应用团队近日宣布开源可控视频音效生成模型ControlFoley,该模型可统一支持文本引导视频配音、文本控制视频配音及参考音频控制视频配音三类任务。通过采用联合视觉编码、时间-音色解耦与模态鲁棒训练等技术,ControlFoley有效解决了现有方案中文本控制能力弱、参考音频与视频难同步等痛点问题,并在VGGSound-Test等多个权威基准测试中取得了开源领域的SOTA( state-of-the-art,最先进)表现。