2026-02-05 · 碎片
32
碎片 · 2026-02-05

AI Agent 评估的五个维度:别被准确率骗了

一个团队自豪地告诉我:他们的 AI Agent 准确率达到了 95%。

我看了他们的测试集,发现问题:测试集太简单了

真实场景下,Agent 的准确率只有 60%。

这让我意识到:大多数团队都在用错误的指标评估 AI Agent

维度一:任务完成率

不是准确率,是任务完成率。

区别在哪?

用户问:「帮我订一张去北京的机票」

为什么会有差距?

真实案例

一个客服 Agent,问答准确率 95%,但问题解决率只有 60%。

为什么?Agent 能回答问题,但不能真正解决问题。

改进方法

不要只测试「Agent 能否回答」,要测试「Agent 能否完成任务」。

维度二:用户满意度

准确率高不代表用户满意。

典型案例

一个客服 Agent,所有回答都准确,但用户满意度只有 40%。

为什么?

数据对比

某公司发现:
- Agent A:准确率 95%,用户满意度 65%
- Agent B:准确率 85%,用户满意度 90%

Agent B 虽然准确率低,但更有人情味,用户更喜欢。

评估方法

不要只看技术指标,要收集真实的用户反馈。

维度三:响应速度

不只是速度快,是要在用户可接受的时间内完成。

用户耐心有多长?

研究表明:
- 聊天场景:2-3 秒
- 查询场景:3-5 秒
- 任务场景:5-10 秒

超过这个时间,用户开始流失。

真实数据

一个搜索 Agent,响应时间从 1 秒增加到 3 秒,用户流失率上升了 20%。

优化技巧

不要只优化平均速度,要优化 P95(95% 请求的响应时间)。

因为用户记住的是最慢的那次体验,不是平均体验。

维度四:成本效率

不是越便宜越好,是性价比最优。

误区

某团队把模型从 GPT-4 换成 GPT-3.5。

总体不划算。

正确做法

计算「单位任务成本」:

案例对比

Agent A:
- 月成本:1 万美元
- 任务完成率:80%
- 单位任务成本:1.25 美元

Agent B:
- 月成本:5000 美元
- 任务完成率:50%
- 单位任务成本:1.00 美元

Agent B 更便宜,但 Agent A 性价比更高。

维度五:安全性和可靠性

Agent 不能犯错,或者犯错后能快速恢复。

不同场景的要求不同

关键指标

真实案例

一个电商 Agent,错误率只有 2%,但每次错误都要人工介入 30 分钟才能修复。

改进后:错误率提高到 5%,但能自动恢复 90% 的错误。

总体效率提升了 3 倍。

综合评估:不要只看单一指标

某电商 Agent 的表现

结论:虽然准确率不如竞品,但综合表现更优。

评估建议

建立多维度的评估体系

  1. 任务完成率:不只看回答,看结果
  2. 用户满意度:收集真实反馈
  3. 响应速度:关注 P95,不只看平均
  4. 成本效率:计算单位任务成本
  5. 安全性:根据场景设定要求

定期审查

持续优化

评估的目的不是打分,是找到改进空间

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单