【品牌公告】原“7牛AI PPT”已正式更名为“即触AI PPT”(jcppt.com),老用户权益与服务已同步顺延。

点击查看

近日,阿里通义实验室正式推出通用智能体评测基准PawBench,该基准在行业内首次实现对底座模型与运行框架(Harness)的联合评测。PawBench v1.0版本包含150项真实任务及4050个测试单元,覆盖9个模型与3个Harness的交叉测试矩阵。评测结果显示,不同Harness之间的性能差距最大可达6.4分,而同一模型更换不同Harness后,得分差异最高能达到11.5分。