2026-04-09 · 架构
32
架构 · 2026-04-09

Anthropic 不想只卖模型,它想成为 Agent 时代的 AWS

当很多人还在把 Agent 理解成“更复杂一点的 Prompt + Workflow”时,Anthropic 已经开始往另一条路上走了。Claude Managed Agents 的真正意义,落点不在于它把长任务、沙盒、记忆、多智能体协作这些能力打包成了一个新产品,真正关键的是它在重写整个问题的层级:Agent 的核心难点,正从模型编排转向智能体运行,转向一套可托管、可恢复、可隔离、可计费的云平台能力。

如果这个判断成立,那么 Claude Managed Agents 的意义就远不止“Anthropic 也出了个托管 Agent 服务”。它释放的是一个更大的行业信号:顶级模型公司开始把 Agent 从开发者自己拼装的能力,改造成一种可以被平台消费的云运行时。

这就是为什么它值得被当作一篇深度长文来写,不能只按功能快讯去理解。


一、Claude Managed Agents 真正上线的,是长周期 Agent 的托管运行时

Anthropic 官方对 Managed Agents 的核心定义,是一个面向 long-horizon agent work 的 hosted service。这个表述非常关键,因为它把产品定位从“更自动的对话体验”直接拉到了“可持续执行的任务系统”。

所谓 long-horizon,不只是任务做得更久;它意味着系统必须开始正面处理一整组传统聊天产品原本不用承担的问题:

这类问题只要做过真正的 Agent 落地,就知道它们都属于主问题,不是边角料。

很多 demo 会让人产生错觉:只要 Agent 能点网页、能接几个工具、能写几段代码,就已经接近“企业可用”。但只要你真的把它放进生产环境:接 Git 仓库、接内部 OAuth、接私有 VPC、连续执行长链路任务,你就会很快发现,问题的重点不再是“模型到底会不会做”,而是“这个系统能不能在现实世界的不确定性里持续做下去”。

Anthropic 这次真正押注的,就是后一个问题。

换句话说,它在把 Claude 往可托管的工作进程方向推,而不再停留在聊天产品层。


二、官方工程文最有洞察力的一句话:不要把今天的 harness,当成明天的平台基础

Claude Managed Agents 官方工程文里最值得反复看的,是一句非常系统设计导向的话:

Harnesses encode assumptions that go stale as models improve.

翻成更直白的话就是:很多 Agent harness 里的逻辑,本质上只是针对“当前模型还不够强”的临时补丁;模型一旦升级,这些补丁就可能从增强器变成包袱。

过去一年多,几乎所有 Agent 框架都在做同一件自然的事:哪里不稳,就往 harness 层补。

这些做法在当下都未必错,甚至常常必要。但真正的问题在于:如果你把这些“当前模型短板的补丁”直接固化成平台基础设施,你其实是在让未来的系统长期适配今天的局限。

Anthropic 这次不想继续这样做。它没有把某一种具体 harness 神化成平台本身,而是开始抽取那些更可能长期稳定存在的接口,把不断变化的部分留给实现层。

这其实是一种非常“操作系统式”的思路:

所以 Claude Managed Agents 更准确的定位,是一个 meta-harness runtime。把它理解为“官方版 Agent 编排器”会低估它的野心。它不预设未来 Claude 一定依赖哪种 harness,只提供一组稳定接口,让未来不同的 harness 都能挂上来继续演进。

这件事为什么重要?因为它说明 Anthropic 已经把 Agent 从“prompt + tools + orchestration”的应用层问题,推进成一种长期演化系统的接口设计问题。这是平台公司思维,也更接近底座思维。


三、真正的技术骨架:Session、Harness、Sandbox 三层抽象

Anthropic 官方把 Managed Agents 拆成了三层:

如果只看这三个词,似乎不算惊艳。真正关键的是:这三层不再默认绑死在一个容器里。

这就是整个架构升级的核心。

过去很多 Agent 系统天然会走向一种“把所有东西塞进一个容器”的实现:

这种设计短期好处非常明显:实现快、路径短、延迟低、调试直觉、文件编辑也是直接 syscall。但一旦进入生产环境,它会迅速暴露几个典型 infra 问题:

  1. 容器挂了,session 可能跟着挂
  2. 容器卡住,工程师只能进容器排查,而容器里可能混着用户数据
  3. 思考、执行、状态、凭证处在同一边界里,风险互相污染
  4. 客户想接自己的 VPC,要么 network peering,要么把整套 harness 带进客户环境
  5. 模型生成的不可信代码,可能与企业 credential 处在同一执行平面

Anthropic 这次真正做的,是把“容器不该承担的职责”拆出去,而不是继续在单个容器上缝缝补补。这一步意味着它开始把 Agent 从“一个能跑的原型容器”,升级成“一组有稳定接口、可独立替换的系统部件”。

这背后对应的也不只是实现偏好,核心是一条非常明确的平台判断:长周期 Agent 的可靠性,必须建立在组件之间可恢复、可重建、可替换的关系上,不能押注某个具体宿主进程永远不出事。


四、brain / hands / session 解耦,为什么是这次发布真正的分水岭

Anthropic 在文中用了一个很直观的说法:把 brainhands 解耦。

这个拆法的价值,远远不止概念更漂亮;它同时重写了失败语义、记忆语义、安全语义和扩展语义。

1. 失败语义:失败不再是系统事故,而是可处理状态

旧设计里,一个容器往往就是整个 agent session 的命门。容器挂了,状态可能没了;容器卡了,就得人工进去救;容器断了,会话就像死在一块黑盒里。

Anthropic 现在把这件事改写了:

也就是说,它把很多过去只能靠人工救火的问题,收敛成了系统内部的一类正常状态迁移。对企业环境来说,这一点比任何单次 benchmark 都重要,因为长周期 Agent 不可能像宠物服务器一样被照看,它必须按照 cattle 的方式管理。

这里最值得注意的,是 Anthropic 把“稳定”理解成“出了错也能继续”,而不是“永远不出错”。这是一种更成熟的生产系统观:真正的韧性来自失败后的恢复路径、状态路径和重启语义。

2. 记忆语义:持久化记忆的本质,在于状态被系统外化

传播里最容易被说歪的一点,是“Managed Agents 让模型有持久化记忆”。方向没错,但不够准确。

更准确的说法是:Anthropic 把记忆从上下文窗口问题,提升成了状态系统问题。

上下文窗口有几个天然限制:

Anthropic 的解法则是:

所以更准确的说法是:系统替模型保留了一份可查询、可恢复、可再利用的任务历史,而不是把希望押在“模型自己记得更久”上。这一步很像从 prompt engineering 转向 event-sourcing:它把“长期任务记忆”从一个提示词技巧,升级成了运行时能力。

这件事带来的真正变化,是把“上下文”从一次性消费品变成了可审计的工作资产。对企业来说,这种变化比“记忆更长”本身更重要,因为它决定了 Agent 能否进入真正需要追责、复盘、合规、回放的业务系统。

3. 安全语义:安全边界不再靠少给权限,而靠结构性隔离

Anthropic 官方文里最硬的一段,其实是安全设计。他们明确承认:如果 Claude 生成的不可信代码和 credential 在同一容器里,那么 prompt injection 一旦诱导模型读取环境变量,就可能拿走 token,进一步扩展成平台级风险。

这很关键,因为它说明 Anthropic 已经把 Agent 安全看成了运行时边界问题,不再停留在“提示词别被骗”“权限再细一点”这类局部修补。

他们给出的结构性解法包括:

这意味着 Anthropic 在卖的,已经超出了“Claude 更聪明”这一层,真正关键的是“Claude 自动化运行时更不容易把企业安全边界炸穿”。这对企业客户的吸引力,可能比任何 benchmark 都更现实。

而且它揭示了一个更深的趋势:随着 Agent 越来越像“会执行的软件”,传统 LLM 安全问题也会越来越接近“云原生权限与边界设计问题”,不再只是 prompt safety 问题。

4. 扩展语义:many brains, many hands 从架构图变成平台能力

Anthropic 在文中明确提到 many brains, many hands。这件事表面像多智能体,实际上更接近多执行环境的统一运行时抽象。

它意味着:

这件事早就超出了“多开几个 agent”那么简单的层面,它把多智能体从应用层编排推进到了平台层调度。

更重要的是,这种设计把多智能体协作从“谁负责拆任务”推进到了“谁负责调度资源与边界”。换句话说,Anthropic 想做的是一套 coordinator 可以放心依赖的基础设施层,而不只是一个更聪明的 coordinator。


五、时间到首 token(TTFT)背后的真正含义:Anthropic 优化的是交互成本,不只是速度

官方工程文中有一个容易被忽略,但很值得写进长文的点:TTFT(time-to-first-token)

他们提到,过去如果把 brain 也放在容器里,那么每个会话都要先付出完整的容器准备成本:

这意味着即使一个任务暂时根本不需要 sandbox,它也得先等那一整套准备动作完成。用户最直接感受到的,就是系统“反应很慢”。

Anthropic 现在的做法,是把 brain 从容器里移出来,让 sandbox 只在真正需要时才被 provision。于是:

官方给出的结果是:

这组数字本身当然值得关注,但更重要的是它说明 Anthropic 很清楚:Agent 平台的体验,并不只取决于模型推理速度,而取决于整个运行时是否把“无效等待”降到了最低。

这实际上是在把 Agent 用户体验,从“模型快不快”推进到“系统有没有把不必要的启动成本延迟暴露给用户”。这是典型的平台思维,也区别于单点模型优化思维。


六、从技术到商业:Anthropic 正在把 Agent 从 token 经济学推向 runtime 经济学

从商业角度看,这次发布的意义甚至可能比技术层更大。

过去大模型公司的收入逻辑,大多围绕 token 展开:你调用多少输入输出,就收多少钱。这种模式有两个天然局限:

  1. 高度可比较,容易卷入价格战
  2. 无法完整覆盖长任务 Agent 的运行成本

因为一旦 Agent 进入长周期执行,真正消耗资源的部分就不止模型推理,还包括:

这些资源不可能都用 token 计价表达清楚。

从当前公开传播来看,$0.08 / 小时 这个数字在大量二级报道和解读中频繁出现,但我暂时还没有从 Anthropic 官方工程文里直接看到定价明文。因此更稳妥的判断应该是:

即便先不锁死这个数字,趋势已经足够清晰:Anthropic 想卖的,已经超出了“单次推理的智力”,核心是“持续运行智能体的云能力”。这更接近 Agent Runtime as a Service,也高于单纯的模型 API。

这件事的真正冲击在于:一旦顶级模型厂商开始把 session、sandbox、vault、proxy、recovery、orchestration 这些资源能力一起打包出售,它和传统 API 供应商就已经不在一个层级上竞争了。它更像是在从“模型供应商”转型成“智能体云平台”。


七、客户案例、传播数字与可采信边界

围绕 Claude Managed Agents 的外部讨论里,最容易失真的部分,不在技术架构,而在客户名单、传播数字和市场口径。

目前相对稳妥的公开信息包括:

相对需要谨慎处理的,则是另一类信息:

因此,更稳妥的写法是:技术骨架尽量立在官方工程叙事上,客户与市场信息只作为侧面佐证,所有高风险数字都保持克制。

这样处理的好处很直接:文章的判断力不会被传播口径拖垮,读者也更容易分清什么是 Anthropic 已经公开展示的能力,什么只是发布期被放大的市场叙事。


八、这次发布真正冲击的,涵盖开源框架,也涵盖一整层“基础设施伪平台”

很多人会问:Claude Managed Agents 会不会冲击 LangChain、AutoGen 这类开源框架?

会,但这不是最核心的冲击对象。

真正更危险的是过去两年里大量围绕“让模型跑起来”而成长起来的一类中间层:

如果这些平台的价值主要建立在“我能帮你把模型接成一个长期运行 Agent”,那 Anthropic 这次的官方托管 runtime 一旦成熟,它们会立刻面临一个尖锐问题:

既然底层模型厂商已经把最难的 session、sandbox、recovery、安全边界、tool proxy 官方化了,我为什么还要多叠你这层中间复杂度?

这就是最典型的平台阳谋。它不需要消灭所有生态玩家,只要先把最通用、最脏、最基础的那层水电煤吸进自己的底座里,就足以迫使大量中间层重新证明自己的存在价值。

未来还能长期成立的,不会是“我也做一个托管 Agent 运行时”,而更可能是:

换句话说:底层 runtime 一旦被平台商品化,真正昂贵的就不再是通用编排,而是行业理解。

这里的关键词其实不在“开源死不死”,真正该看的是“哪一层会被平台吸收、哪一层还保有稀缺性”。开源框架当然仍然有意义,尤其在实验、适配、多模型切换和特定团队内部搭建流程上;但如果一个产品的核心价值仅仅是“帮你把 Claude 或其他模型接成一个托管 Agent”,那它面对 Managed Agents 这类官方能力时,未来的空间一定会变窄。


九、Anthropic 和 OpenAI 正在走两条不同的路

如果把 Managed Agents 放回竞争格局里看,Anthropic 的方向其实非常清楚。

OpenAI 过去更强的势能,大量来自:

Anthropic 这次 Managed Agents 的落点则明显偏向另一侧:

这其实是在讲一个非常明确的差异化故事:

我不一定要在所有消费级体验上赢你,但我可以成为那个最适合进入企业生产环境的 Agent 平台。

这个故事为什么有吸引力?因为 CTO 真正在意的,往往不在模型偶尔答偏一点,而在于:

Anthropic 现在就是在把这些最不性感、但最要命的问题,变成自己的平台护城河。

更进一步看,这种分化可能会让未来的大模型公司出现非常清晰的角色分层:

Anthropic 显然更想站在第二个位置上。


十、对传统 SaaS 与企业软件意味着什么:从 seat 逻辑走向 runtime 逻辑

如果 Managed Agents 真按 Anthropic 设想的路径发展下去,它的冲击会从 AI infra 生态内部继续外溢,进一步影响企业软件本身。

过去很多 SaaS 软件的商业逻辑建立在 seat 上:

但 Agent 一旦真正被平台化、托管化,企业购买的对象就可能从“让某个人使用某个软件”,转向“让一个可以持续执行任务的智能体完成某类工作”。

这不意味着 seat 模式会立刻消失,但它会带来几个非常现实的问题:

  1. 哪些工作流程其实并不需要一直以人类 UI 为中心?
  2. 哪些任务原本依赖 seat 软件里的表单流转,其实可以被 runtime 化?
  3. 企业未来买的是更多人头,还是更多可控的自动执行能力?

这也是为什么外界会把 Managed Agents 的影响往 Workday、Asana、Notion 这类企业协作与工作流产品延伸。短期看,它们还是 Anthropic 的客户与合作方;中长期看,Agent runtime 一旦成熟,也会逼迫它们重新定义自己的价值。

未来真正能长期成立的 SaaS,不会只是“有一个界面让人点”,而更可能是:

也就是说,Managed Agents 的长期影响不会停留在“谁做 Agent 平台”,它还会推动企业软件重新定义‘软件中的执行者’


十一、对中国企业和 AI 平台团队真正有价值的启发:别再重复造会被平台吸收的水电煤

如果站在中国企业、创业团队或内部 AI 平台负责人的角度看,这次发布真正值得带走的,不是某几个新 feature 本身,更是一种战略过滤器:

哪些东西你现在花大力气去造,未来很可能会被顶层平台快速吸收?

过去很多团队都很容易把下面这些能力当作长期壁垒:

这些能力当然必要,但是否值得继续作为“长期核心壁垒”去重仓,要重新想了。

因为顶层模型厂商一旦开始把这些通用脏活做成默认能力,继续把主要精力押在这里,很可能只是替平台做需求验证。

真正更值得深投入的,反而是那些不容易被 Anthropic、OpenAI、Google 直接商品化的层:

说得更直白一点:

未来越来越便宜的是 Agent 的运行,越来越贵的是对真实行业问题的理解。

谁还在重复造通用水电煤,谁就越容易被动;谁能把 runtime 平台化之后的红利,转成行业结果能力,谁才更可能留下真正的护城河。

对国内团队来说,这个判断尤其重要。因为中国市场很容易在每一波技术浪潮初期涌现一大批“平台层复制者”:看见国外有 framework、就做 framework;看见国外有 runtime、就做 runtime;看见国外有 memory layer、就做 memory layer。但如果顶层平台演化速度足够快,这些中间复制层很容易在产品还没形成真正护城河之前,就被源头能力吸走。

所以更值得问的问题,不在“要不要也做一个 Managed Agents”,而在:在 Managed Agents 这类能力普及之后,我们在本地市场真正还能提供什么不可替代的价值?


十二、为什么这件事对开发者心态也是一次重构:从“造 Agent”到“定义 Outcome”

Claude Managed Agents 的另一个深层影响,是它会改变开发者和平台团队的重心。

过去大家做 Agent,很容易把注意力集中在这些问题上:

但一旦这些东西逐步被平台官方吸收,开发者最有价值的工作就会发生转移:

这其实是在把开发者的核心职责,从“搭好一套能跑的管道”,转向“定义好一套能衡量结果的标准”。

这也是为什么 outcome / self-evaluation 这类能力在传播里会被不断强调。因为未来真正昂贵的,并非让 Agent 运行起来本身,而是让 Agent 朝着正确结果稳定收敛。

平台负责越来越多的基础设施,开发者和企业团队就必须把注意力转到:

从这个角度看,Managed Agents 其实不仅是在改变技术栈,也是在改变 AI 时代的软件工程分工。


十三、结论:Agent 时代真正开始工业化的信号,是系统更可托管

如果一定要用一句话概括 Claude Managed Agents 的意义,我会这样说:

Anthropic 正在把 Agent 从一种“开发者自己拼起来的能力”,改造成一种“可以按平台方式被消费的运行时”。

这句话背后的变化非常深:

这并不意味着 Anthropic 已经赢了,也不意味着所有开源 Agent 框架会立刻失去意义。但它确实清晰地指出了一条趋势线:未来 Agent 生态的主战场,越来越像云平台竞争,而越来越不像 prompt + workflow 的脚手架竞争。

如果 Anthropic 真能把这条路走通,那么它争夺的就远不止下一代 Claude 用户,更是下一代 AI 生产系统默认建在哪个底座之上。

那时候它卖的,也早已超出 Claude 本身。

它卖的是:让 Claude 长时间、低风险、带状态、可恢复、可审计地替你干活的整套云能力。

而对所有还在做 AI 平台、Agent 产品、企业智能化改造的人来说,这次发布真正的提醒也许只有一句:

别再只盯着模型会不会做事,要开始问:这套系统,是否已经到了能真正托管工作的程度。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单