2026-02-05 · 碎片
32
碎片 · 2026-02-05

为什么 90% 的 AI Agent 在生产环境都是盲盒

一个医疗 AI 公司的 Agent 在生产环境出错,给病人开了错误的药剂量。

团队花了三天查日志,最后发现问题:他们根本看不到 Agent 的决策过程

日志里只有「任务完成」,但不知道 Agent 怎么想的、调用了什么工具、为什么会出错。

这不是个案,90% 的 AI Agent 在生产环境都是盲盒

盲盒问题一:决策过程不透明

现状:Agent 执行任务,日志只记录「成功」或「失败」。

问题:你不知道 Agent 怎么想的。

真实场景

用户问「帮我订一张去北京的机票」,Agent 订了最贵的航班。

为什么?日志里找不到答案。

可能原因:
- Agent 误解了用户的预算偏好
- Agent 的推理过程有误
- Agent 调用的工具返回了错误数据

但你什么都看不到,只能猜。

解决方法:记录思维链

不要只记录结果,要记录过程:

用户请求:订机票去北京
思考:需要查询航班信息
步骤1:调用 FlightSearch API
步骤2:筛选结果(价格、时间)
步骤3:选择最优选项
决策:选择 CA1234 航班
理由:时间最早,价格合理

这样出问题时,你能看到 Agent 在哪一步想错了。

盲盒问题二:工具调用黑盒

现状:Agent 调用了 10 个工具,但不知道哪个工具出了问题。

问题:无法定位故障。

真实案例

一个电商 Agent,用户下单后总是超时。

团队查了三天,最后发现:支付 API 的超时设置太短了。

但如果他们能看到工具调用的详细日志,5 分钟就能定位问题。

解决方法:记录工具调用

每次工具调用都要记录:
- 调用了哪个工具
- 传了什么参数
- 返回了什么结果
- 耗时多久

{
"tool": "PaymentAPI.charge",
"params": {"amount": 100, "currency": "USD"},
"result": {"status": "timeout"},
"duration": 5000
}

这样你能快速定位是哪个工具出了问题。

盲盒问题三:数据流不可见

现状:Agent 处理数据,但不知道数据在中间环节变成了什么。

问题:无法追踪数据变化。

典型案例

一个客服 Agent,用户反馈「回答完全不对」。

查了半天发现:Agent 读取的用户数据是旧的(缓存没更新)。

但如果能看到数据流,一眼就能发现问题。

解决方法:追踪数据变化

记录数据的每一步变化:

原始数据:用户等级 = Gold
步骤1:从数据库读取 → Gold
步骤2:应用折扣规则 → 0.8
步骤3:缓存更新 → 失败
最终数据:折扣 = 0.8(但缓存未更新)

一个可观测的 Agent 架构

LangSmith 的做法(LangChain 开发者的可观测平台):

第一层:Trace(追踪)
- 记录每一次 Agent 执行的完整路径
- 从用户请求到最终响应的每一步
- 可视化展示决策树

第二层:Span(跨度)
- 每个工具调用都是一个 Span
- 记录输入、输出、耗时
- 快速定位慢的工具

第三层:Metrics(指标)
- 成功率、平均耗时、错误率
- 按工具、按场景、按时间维度统计
- 异常自动告警

结果

开发效率提升 3 倍,问题定位时间从天级降到分钟级。

建立可观测性的三个原则

原则一:记录决策,不只是结果

原则二:追踪工具调用的全链路

原则三:监控关键指标

最后的建议

AI Agent 的可观测性不是「可选项」,是生产环境的必需品

如果你的 Agent 还在盲盒状态,问自己三个问题:

  1. Agent 出错时,我能看到它的决策过程吗?
  2. 我能追踪每一个工具调用的详细信息吗?
  3. 我有监控指标来实时发现问题吗?

如果任何一个答案是「否」,那就去建立可观测性。

在生产环境,能看到的错误,才是可修复的错误

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单