AI Agent 评估的五个维度：别被准确率骗了

一个团队自豪地告诉我：他们的 AI Agent 准确率达到了 95%。

我看了他们的测试集，发现问题：测试集太简单了。

真实场景下，Agent 的准确率只有 60%。

这让我意识到：大多数团队都在用错误的指标评估 AI Agent。

维度一：任务完成率

不是准确率，是任务完成率。

区别在哪？

用户问：「帮我订一张去北京的机票」

准确率：Agent 理解了用户需求（100% 准确）
任务完成率：Agent 成功订到了票（可能只有 70%）

为什么会有差距？

订票 API 失败
支付环节出错
航班已售罄
用户取消订单

真实案例：

一个客服 Agent，问答准确率 95%，但问题解决率只有 60%。

为什么？Agent 能回答问题，但不能真正解决问题。

改进方法：

不要只测试「Agent 能否回答」，要测试「Agent 能否完成任务」。

维度二：用户满意度

准确率高不代表用户满意。

典型案例：

一个客服 Agent，所有回答都准确，但用户满意度只有 40%。

为什么？

回答太机械，没有温度
响应速度慢，用户不耐烦
解决问题的效率低，用户要问很多次

数据对比：

某公司发现：
- Agent A：准确率 95%，用户满意度 65%
- Agent B：准确率 85%，用户满意度 90%

Agent B 虽然准确率低，但更有人情味，用户更喜欢。

评估方法：

不要只看技术指标，要收集真实的用户反馈。

NPS（净推荐值）
用户留存率
投诉率

维度三：响应速度

不只是速度快，是要在用户可接受的时间内完成。

用户耐心有多长？

研究表明：
- 聊天场景：2-3 秒
- 查询场景：3-5 秒
- 任务场景：5-10 秒

超过这个时间，用户开始流失。

真实数据：

一个搜索 Agent，响应时间从 1 秒增加到 3 秒，用户流失率上升了 20%。

优化技巧：

不要只优化平均速度，要优化 P95（95% 请求的响应时间）。

因为用户记住的是最慢的那次体验，不是平均体验。

维度四：成本效率

不是越便宜越好，是性价比最优。

误区：

某团队把模型从 GPT-4 换成 GPT-3.5。

成本降了 90%
但任务完成率降了 30%
用户投诉增加了 2 倍

总体不划算。

正确做法：

计算「单位任务成本」：

案例对比：

Agent A：
- 月成本：1 万美元
- 任务完成率：80%
- 单位任务成本：1.25 美元

Agent B：
- 月成本：5000 美元
- 任务完成率：50%
- 单位任务成本：1.00 美元

Agent B 更便宜，但 Agent A 性价比更高。

维度五：安全性和可靠性

Agent 不能犯错，或者犯错后能快速恢复。

不同场景的要求不同：

医疗 Agent：错误率要求 0%
金融 Agent：完善的审核机制
客服 Agent：容错率可以高一些

关键指标：

错误率
错误恢复时间
人工介入率

真实案例：

一个电商 Agent，错误率只有 2%，但每次错误都要人工介入 30 分钟才能修复。

改进后：错误率提高到 5%，但能自动恢复 90% 的错误。

总体效率提升了 3 倍。

综合评估：不要只看单一指标

某电商 Agent 的表现：

准确率：85%（不如竞品的 95%）
任务完成率：95%（竞品只有 80%）
用户满意度：90%（竞品 75%）
响应速度：2 秒（竞品 5 秒）
成本：竞品的 1/10

结论：虽然准确率不如竞品，但综合表现更优。

评估建议

建立多维度的评估体系：

任务完成率：不只看回答，看结果
用户满意度：收集真实反馈
响应速度：关注 P95，不只看平均
成本效率：计算单位任务成本
安全性：根据场景设定要求

定期审查：

每周查看关键指标
每月进行深度分析
每季度更新评估标准

持续优化：

评估的目的不是打分，是找到改进空间。

—— https://www.80aj.com