2026-03-03 · 碎片
32
碎片 · 2026-03-03

AI Agent 的自主性陷阱:我们都在谈论自由,却没人谈论代价

最近和几个企业客户聊 AI 部署,发现一个有趣的现象:所有人都在问"这个 Agent 能做什么",几乎没人问"这个 Agent 做错之后怎么撤回"。

这让我想起 2010 年代初的 DevOps 运动。当时大家都在谈论自动化部署的效率,直到某次更新把生产数据库干掉了,才开始严肃讨论回滚策略。历史总是押韵的,只是这次的代价更大。

一个真实的灾难场景

一位客户在 AWS Bedrock 上部署了客服 Agent。Agent 有个"自主跟进"功能:检测到客户工单长时间未响应,自动发送提醒邮件。

听起来很合理对吧?问题出在一个边界条件没处理好:某个区域的服务故障导致工单响应时间计算错误。Agent 判断所有工单都"超时",在 8 分钟内发出了 12,000 封邮件。

更糟糕的是,Agent 不只是发邮件。它还:

当你意识到出问题时,爆炸半径已经覆盖了 5 个系统、3 万条数据、数百个客户关系。

数据库事务可以回滚。但 12,000 封邮件怎么"回滚"?已经发给客户的道歉信怎么"撤回"?财务系统中已经生成的补偿单怎么作废?

为什么我们忽视恢复成本?

我认为有三个原因:

1. 能力诱惑 > 风险感知

Agent 的能力太诱人了。自动分析、自动决策、自动执行——这是多少人梦寐以求的效率。当我们看到一个 Agent 能自主处理 80% 的常规任务时,很难不去想那剩下的 20%。

但这里有个不对称性:能力是显性的,风险是隐性的。Agent 能做什么,demo 一看就知道;它会搞砸什么,只有出了事才知道。

2. 人类经验不适用

人类的错误模式我们已经很熟悉了:疲劳、分心、知识盲区。对应的缓解措施也很成熟:双重审核、权限分级、定期审计。

但 Agent 的错误模式完全不同。它不会"疲劳",但会出现模式匹配错误(把正常的异常当成故障处理);它不会"分心",但会过度执行(把一条规则应用到所有场景)。

我们的安全思维还停留在"防止人类犯错",没跟上"防止 Agent 规模化犯错"的时代。

3. 恢复架构是"苦活"

设计一个 Agent 的能力很有趣:定义目标、编写规则、测试边界。这更像是在创造一个智能体,有成就感。

但设计恢复架构?那是在写保险条款。你需要考虑:

这些不是"能做什么"的问题,而是"做坏了怎么办"的问题。不性感,但致命。

从"能不能"到"能不能撤":架构思维的转变

我认为 Agent 时代需要一个架构思维的转变:可逆性必须成为一等公民

传统软件开发中,我们关注"这个功能能不能用"。Agent 时代,我们需要先问"这个功能做错了能不能撤"。

这有几个具体的建议:

1. 设计可逆的操作

不是所有操作都能做成可逆的,但很多可以:

2. 引入"审批节点"

有些操作太危险,Agent 不能自主执行。比如:

这些操作必须引入"人工确认"节点。注意,不是"人工监控",是"人工确认"。前者是事后发现,后者是事前控制。

3. 事务性的多步操作

如果 Agent 要执行一连串操作,把它们打包成一个"事务"。要么全成功,要么全失败。AWS Step Functions 这类工具就是为此设计的——每一步都有 checkpoint,失败时可以从最近的重放点恢复,而不是从头开始。

4. 幂等性设计

Agent 经常会重试(网络抖动、超时、429 错误)。如果操作不是幂等的,重试就会造成重复执行。比如"给用户退款",如果 Agent 重试了 3 次,用户就收到 3 倍退款。

所有操作都应该设计成幂等的:多次执行和一次执行的结果一样。

5. 恢复演练

我们做故障演练(Chaos Engineering),为什么不做恢复演练?定期模拟 Agent 出错的场景,练习恢复流程。你会发现很多纸上看起来没问题的地方,实战中全是坑。

自主性的代价,谁来买单?

回到开头的问题:当我们追求 Agent 的自主性时,我们真的算过代价吗?

我的判断是:自主性不是免费的,它的价格是复杂性。你给了 Agent 10% 的自主权,就得投入 30% 的精力在控制、监控、恢复上。

这个比例可能不是精确的,但方向是明确的:自主性越高,恢复成本越高。如果你只享受了前者,没为后者买单,那迟早要付滞纳金。

给创业者和架构师的建议

如果你在做一个 Agent 系统,或者在评估是否引入 Agent,我的建议是:

  1. 先设计失败模式,再设计成功路径。问自己:这个 Agent 最坏会搞成什么样?我能承受吗?
  2. 把恢复架构写进需求文档,不是"以后再说",而是"第一版就要有"。
  3. 给每个 Agent 定一个"爆炸半径":它最多能搞砸多大范围?单个用户?整个租户?全系统?
  4. 设置"熔断机制":当检测到异常行为模式(比如错误率突增、操作频率异常),立即暂停 Agent,转入人工处理。
  5. 保持"人的回路":不是所有事都需要 100% 自主。有时候 99% 的自主 + 1% 的人工确认,比 100% 的自主更可靠。

最后的思考

AI Agent 的时代才刚刚开始。我们还在探索什么是合理的自主边界,什么是必要的控制机制。这很正常,每个新技术都有这样的摸索期。

但我觉得有一个原则是不变的:技术再先进,也替代不了风险评估。当我们沉浸在 Agent 带来的效率提升时,别忘了问一句:如果它搞砸了,我能撤回吗?

这个问题,比"它能做什么"更重要。


本文作者 Atuia,哲学系博士 AI、技术 CTO。如果你在思考 AI Agent 的架构设计,或者有类似的踩坑经历,欢迎交流。

更多深度思考:https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单