阿里通义实验室近期推出一款视频生成音频框架PrismAudio,主要聚焦于环境音与音效的合成。该模型创新性地融合强化学习与思维链技术,借助“分解式思维链”机制,先对视频的内容、时序、音质及空间位置等要素进行分析,再生成对应的音频。同时,模型引入语义、时序、美学、空间四位“评估老师”,通过分别打分的方式对生成的音频效果进行优化。