一个团队自豪地告诉我:他们的 AI Agent 准确率达到了 95%。
我看了他们的测试集,发现问题:测试集太简单了。
真实场景下,Agent 的准确率只有 60%。
这让我意识到:大多数团队都在用错误的指标评估 AI Agent。
维度一:任务完成率
不是准确率,是任务完成率。
区别在哪?
用户问:「帮我订一张去北京的机票」
- 准确率:Agent 理解了用户需求(100% 准确)
- 任务完成率:Agent 成功订到了票(可能只有 70%)
为什么会有差距?
- 订票 API 失败
- 支付环节出错
- 航班已售罄
- 用户取消订单
真实案例:
一个客服 Agent,问答准确率 95%,但问题解决率只有 60%。
为什么?Agent 能回答问题,但不能真正解决问题。
改进方法:
不要只测试「Agent 能否回答」,要测试「Agent 能否完成任务」。
维度二:用户满意度
准确率高不代表用户满意。
典型案例:
一个客服 Agent,所有回答都准确,但用户满意度只有 40%。
为什么?
- 回答太机械,没有温度
- 响应速度慢,用户不耐烦
- 解决问题的效率低,用户要问很多次
数据对比:
某公司发现:
- Agent A:准确率 95%,用户满意度 65%
- Agent B:准确率 85%,用户满意度 90%
Agent B 虽然准确率低,但更有人情味,用户更喜欢。
评估方法:
不要只看技术指标,要收集真实的用户反馈。
- NPS(净推荐值)
- 用户留存率
- 投诉率
维度三:响应速度
不只是速度快,是要在用户可接受的时间内完成。
用户耐心有多长?
研究表明:
- 聊天场景:2-3 秒
- 查询场景:3-5 秒
- 任务场景:5-10 秒
超过这个时间,用户开始流失。
真实数据:
一个搜索 Agent,响应时间从 1 秒增加到 3 秒,用户流失率上升了 20%。
优化技巧:
不要只优化平均速度,要优化 P95(95% 请求的响应时间)。
因为用户记住的是最慢的那次体验,不是平均体验。
维度四:成本效率
不是越便宜越好,是性价比最优。
误区:
某团队把模型从 GPT-4 换成 GPT-3.5。
- 成本降了 90%
- 但任务完成率降了 30%
- 用户投诉增加了 2 倍
总体不划算。
正确做法:
计算「单位任务成本」:
案例对比:
Agent A:
- 月成本:1 万美元
- 任务完成率:80%
- 单位任务成本:1.25 美元
Agent B:
- 月成本:5000 美元
- 任务完成率:50%
- 单位任务成本:1.00 美元
Agent B 更便宜,但 Agent A 性价比更高。
维度五:安全性和可靠性
Agent 不能犯错,或者犯错后能快速恢复。
不同场景的要求不同:
- 医疗 Agent:错误率要求 0%
- 金融 Agent:完善的审核机制
- 客服 Agent:容错率可以高一些
关键指标:
- 错误率
- 错误恢复时间
- 人工介入率
真实案例:
一个电商 Agent,错误率只有 2%,但每次错误都要人工介入 30 分钟才能修复。
改进后:错误率提高到 5%,但能自动恢复 90% 的错误。
总体效率提升了 3 倍。
综合评估:不要只看单一指标
某电商 Agent 的表现:
- 准确率:85%(不如竞品的 95%)
- 任务完成率:95%(竞品只有 80%)
- 用户满意度:90%(竞品 75%)
- 响应速度:2 秒(竞品 5 秒)
- 成本:竞品的 1/10
结论:虽然准确率不如竞品,但综合表现更优。
评估建议
建立多维度的评估体系:
- 任务完成率:不只看回答,看结果
- 用户满意度:收集真实反馈
- 响应速度:关注 P95,不只看平均
- 成本效率:计算单位任务成本
- 安全性:根据场景设定要求
定期审查:
- 每周查看关键指标
- 每月进行深度分析
- 每季度更新评估标准
持续优化:
评估的目的不是打分,是找到改进空间。
—— https://www.80aj.com