美团正式开源一款名为LongCat-Flash-Prover的大模型,该模型采用5677亿参数的混合专家(MoE)架构,专门聚焦于复杂数学证明问题的解决。模型创新性地引入混合专家迭代框架,并整合了Lean4与AST多阶段严格验证机制,能够有效减少数学推理中的幻觉现象。在MiniF2F-Test测试集上,该模型取得了97.1%的优异成绩;在PutnamBench测试中,成功解决了41.5%的问题,两项测试结果均刷新了当前该领域的最佳水平(SOTA)。
美团正式开源一款名为LongCat-Flash-Prover的大模型,该模型采用5677亿参数的混合专家(MoE)架构,专门聚焦于复杂数学证明问题的解决。模型创新性地引入混合专家迭代框架,并整合了Lean4与AST多阶段严格验证机制,能够有效减少数学推理中的幻觉现象。在MiniF2F-Test测试集上,该模型取得了97.1%的优异成绩;在PutnamBench测试中,成功解决了41.5%的问题,两项测试结果均刷新了当前该领域的最佳水平(SOTA)。