【品牌公告】原“7牛AI PPT”已正式更名为“即触AI PPT”（jcppt.com），老用户权益与服务已同步顺延。

阿里通义实验室发布通用智能体评测基准PawBench

2026-06-05 #AI新闻

近日，阿里通义实验室正式推出通用智能体评测基准PawBench，该基准在行业内首次实现对底座模型与运行框架（Harness）的联合评测。PawBench v1.0版本包含150项真实任务及4050个测试单元，覆盖9个模型与3个Harness的交叉测试矩阵。评测结果显示，不同Harness之间的性能差距最大可达6.4分，而同一模型更换不同Harness后，得分差异最高能达到11.5分。

AI快讯

阿里通义实验室发布通用智能体评测基准PawBench

相关推荐

阿里通义实验室发布通用智能体评测基准PawBench

谷歌Magenta团队发布本地实时AI音乐模型Magenta RealTime 2

腾讯发布企业级AI智能工作台WorkBuddy企业版

2026年8款AI PPT工具技术对比报告