近日,阿里通义实验室正式推出通用智能体评测基准PawBench,该基准在行业内首次实现对底座模型与运行框架(Harness)的联合评测。PawBench v1.0版本包含150项真实任务及4050个测试单元,覆盖9个模型与3个Harness的交叉测试矩阵。评测结果显示,不同Harness之间的性能差距最大可达6.4分,而同一模型更换不同Harness后,得分差异最高能达到11.5分。
近日,阿里通义实验室正式推出通用智能体评测基准PawBench,该基准在行业内首次实现对底座模型与运行框架(Harness)的联合评测。PawBench v1.0版本包含150项真实任务及4050个测试单元,覆盖9个模型与3个Harness的交叉测试矩阵。评测结果显示,不同Harness之间的性能差距最大可达6.4分,而同一模型更换不同Harness后,得分差异最高能达到11.5分。