阿里通义正式推出全模态大模型Qwen3.5-Omni,该模型在215项音频及音视频相关任务中斩获SOTA( state-of-the-art,最先进)成果,综合性能全面超越Gemini-3.1-Pro。Qwen3.5-Omni采用Thinker-Talker分工架构与Hybrid-MoE技术,可原生兼容文本、图像、音频及音视频等多类型输入,拥有细粒度音视频Caption生成能力。此外,模型新增语义打断、音色克隆、语音控制等实时交互功能,支持256K超长上下文、113种语言识别以及10小时音频处理。