2026-02-04 · 碎片
32
碎片 · 2026-02-04

AI Agent 测试的三个不可能三角

昨天看到一个团队的测试覆盖率:98%。

结果上线第一周,他们的 Agent 在生产环境搞砸了 12 次。

问题不在覆盖率,在他们对「测试」的理解完全错了。

不可能三角一:确定性 vs 智能性

传统测试的假设:同样的输入,永远得到同样的输出。

AI Agent 的现实:同样的输入,每次都可能不同。

这不叫 Bug,这叫智能

但传统测试框架根本无法处理这种情况。

真实案例

一个客服 Agent,测试时 100% 通过。上线后,用户抱怨「有时候回答得很对,有时候完全偏题」。

团队查了三天,最后发现:模型确实在「思考」,只是思考的结果不稳定。

解决方案

不是强制模型稳定,而是测试它的稳定性范围

前 OpenAI 工程师说:「你要测试的不是答案本身,而是答案的质量分布。」

不可能三角二:速度 vs 质量

现状:大多数团队用 GPT-4 做测试,用 GPT-3.5 做生产。

问题:测试环境的表现,和生产环境完全不同。

这就像用法拉利测试,用五菱宏光跑比赛。

数据对比

某团队发现:他们在测试环境的准确率是 92%,生产环境只有 78%。

为什么?因为测试用例太「干净」了。

真实用户的输入:拼写错误、语法混乱、信息缺失、多层嵌套...

解决方案

不要「造」测试数据,从生产环境「偷」。

  1. 收集真实用户对话(匿名化)
  2. 人工标注正确答案
  3. 用这些数据做测试集

Stripe 的做法:他们的测试集 100% 来自真实用户反馈。

结果:测试和生产环境的准确率差距从 14% 降到 3%。

不可能三角三:成本 vs 覆盖率

现状:测试一次 Agent,调用模型 1000 次,花费 50 美元。

每天测试 10 次,一个月就是 1.5 万美元。

更糟的是:大多数测试调用都是浪费的。

典型案例

一个电商 Agent,有 500 个测试用例。

但分析发现:其中 300 个用例,都在测试「模型能不能理解中文」。

这根本不需要测 300 次。

解决方案

分层测试

  1. 单元测试(不用模型):测试逻辑分支、工具调用、权限控制
  2. 集成测试(用小模型):测试 Agent 的决策流程
  3. 端到端测试(用生产模型):只测试核心场景

成本对比

一个成功的案例

GitHub Copilot 的测试策略:

第一层:不用模型,测试代码生成逻辑(成本:0)

第二层:用小模型测试常见场景(成本:每次 0.1 美元)

第三层:每周用真实模型测试一次完整流程(成本:每次 100 美元)

结果

避坑的三个原则

原则一:接受不确定性

原则二:测试真实场景

原则三:分层降低成本

最后的建议

AI Agent 的测试,不是传统测试的升级,而是全新的范式

如果你在做 AI Agent 测试,问自己三个问题:

  1. 我在测试「固定答案」还是「质量分布」?
  2. 我的测试数据来自「实验室」还是「生产环境」?
  3. 我能区分哪些测试必须用模型,哪些可以不用吗?

如果任何一个答案是「前者」,重新设计你的测试策略。

测试的目的不是证明 Agent 是对的,是找到它会犯错的地方

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单