为什么 90% 的 AI Agent 在生产环境都是盲盒

一个医疗 AI 公司的 Agent 在生产环境出错，给病人开了错误的药剂量。

团队花了三天查日志，最后发现问题：他们根本看不到 Agent 的决策过程。

日志里只有「任务完成」，但不知道 Agent 怎么想的、调用了什么工具、为什么会出错。

这不是个案，90% 的 AI Agent 在生产环境都是盲盒。

盲盒问题一：决策过程不透明

现状：Agent 执行任务，日志只记录「成功」或「失败」。

问题：你不知道 Agent 怎么想的。

真实场景：

用户问「帮我订一张去北京的机票」，Agent 订了最贵的航班。

为什么？日志里找不到答案。

可能原因：
- Agent 误解了用户的预算偏好
- Agent 的推理过程有误
- Agent 调用的工具返回了错误数据

但你什么都看不到，只能猜。

解决方法：记录思维链

不要只记录结果，要记录过程：

用户请求：订机票去北京
思考：需要查询航班信息
步骤1：调用 FlightSearch API
步骤2：筛选结果（价格、时间）
步骤3：选择最优选项
决策：选择 CA1234 航班
理由：时间最早，价格合理

这样出问题时，你能看到 Agent 在哪一步想错了。

盲盒问题二：工具调用黑盒

现状：Agent 调用了 10 个工具，但不知道哪个工具出了问题。

问题：无法定位故障。

真实案例：

一个电商 Agent，用户下单后总是超时。

团队查了三天，最后发现：支付 API 的超时设置太短了。

但如果他们能看到工具调用的详细日志，5 分钟就能定位问题。

解决方法：记录工具调用

每次工具调用都要记录：
- 调用了哪个工具
- 传了什么参数
- 返回了什么结果
- 耗时多久

{
"tool": "PaymentAPI.charge",
"params": {"amount": 100, "currency": "USD"},
"result": {"status": "timeout"},
"duration": 5000
}

这样你能快速定位是哪个工具出了问题。

盲盒问题三：数据流不可见

现状：Agent 处理数据，但不知道数据在中间环节变成了什么。

问题：无法追踪数据变化。

典型案例：

一个客服 Agent，用户反馈「回答完全不对」。

查了半天发现：Agent 读取的用户数据是旧的（缓存没更新）。

但如果能看到数据流，一眼就能发现问题。

解决方法：追踪数据变化

记录数据的每一步变化：

原始数据：用户等级 = Gold
步骤1：从数据库读取 → Gold
步骤2：应用折扣规则 → 0.8
步骤3：缓存更新 → 失败
最终数据：折扣 = 0.8（但缓存未更新）

一个可观测的 Agent 架构

LangSmith 的做法（LangChain 开发者的可观测平台）：

第一层：Trace（追踪）
- 记录每一次 Agent 执行的完整路径
- 从用户请求到最终响应的每一步
- 可视化展示决策树

第二层：Span（跨度）
- 每个工具调用都是一个 Span
- 记录输入、输出、耗时
- 快速定位慢的工具

第三层：Metrics（指标）
- 成功率、平均耗时、错误率
- 按工具、按场景、按时间维度统计
- 异常自动告警

结果：

开发效率提升 3 倍，问题定位时间从天级降到分钟级。

建立可观测性的三个原则

原则一：记录决策，不只是结果

记录 Agent 的思考过程
记录每一步的选择和理由
记录中间状态和变量

原则二：追踪工具调用的全链路

记录每个工具的输入输出
记录调用链和依赖关系
记录耗时和错误信息

原则三：监控关键指标

成功率、失败率、超时率
平均响应时间
用户满意度

最后的建议

AI Agent 的可观测性不是「可选项」，是生产环境的必需品。

如果你的 Agent 还在盲盒状态，问自己三个问题：

Agent 出错时，我能看到它的决策过程吗？
我能追踪每一个工具调用的详细信息吗？
我有监控指标来实时发现问题吗？

如果任何一个答案是「否」，那就去建立可观测性。

在生产环境，能看到的错误，才是可修复的错误。

—— https://www.80aj.com