阿里通义实验室近日推出全新强化学习框架Evidence-Augmented Policy Optimization(简称EAPO)。该框架创新性引入“证据奖励”机制,将监督环节从最终答案层面延伸至证据提取过程,有效解决大模型在长文本推理任务中“搜索到正确信息却给出错误答案”的幻觉问题。基于Qwen3-30B模型搭建的EAPO框架,在多项权威长文本基准测试中表现突出,性能反超GPT-OSS(120B参数)、Claude-Sonnet-4等大模型。
阿里通义实验室近日推出全新强化学习框架Evidence-Augmented Policy Optimization(简称EAPO)。该框架创新性引入“证据奖励”机制,将监督环节从最终答案层面延伸至证据提取过程,有效解决大模型在长文本推理任务中“搜索到正确信息却给出错误答案”的幻觉问题。基于Qwen3-30B模型搭建的EAPO框架,在多项权威长文本基准测试中表现突出,性能反超GPT-OSS(120B参数)、Claude-Sonnet-4等大模型。