Anthropic 不想只卖模型，它想成为 Agent 时代的 AWS

当很多人还在把 Agent 理解成“更复杂一点的 Prompt + Workflow”时，Anthropic 已经开始往另一条路上走了。Claude Managed Agents 的真正意义，落点不在于它把长任务、沙盒、记忆、多智能体协作这些能力打包成了一个新产品，真正关键的是它在重写整个问题的层级：Agent 的核心难点，正从模型编排转向智能体运行，转向一套可托管、可恢复、可隔离、可计费的云平台能力。

如果这个判断成立，那么 Claude Managed Agents 的意义就远不止“Anthropic 也出了个托管 Agent 服务”。它释放的是一个更大的行业信号：顶级模型公司开始把 Agent 从开发者自己拼装的能力，改造成一种可以被平台消费的云运行时。

这就是为什么它值得被当作一篇深度长文来写，不能只按功能快讯去理解。

一、Claude Managed Agents 真正上线的，是长周期 Agent 的托管运行时

Anthropic 官方对 Managed Agents 的核心定义，是一个面向 long-horizon agent work 的 hosted service。这个表述非常关键，因为它把产品定位从“更自动的对话体验”直接拉到了“可持续执行的任务系统”。

所谓 long-horizon，不只是任务做得更久；它意味着系统必须开始正面处理一整组传统聊天产品原本不用承担的问题：

任务可能运行几十分钟甚至几小时
中间会读写文件、跑代码、调用外部工具
上下文窗口迟早不够，状态必须被外化
执行环境会失败，失败后必须恢复
资源可能位于企业私有网络而非同一宿主机
模型生成的代码本身不可信，不能和企业凭证混在同一个风险平面

这类问题只要做过真正的 Agent 落地，就知道它们都属于主问题，不是边角料。

很多 demo 会让人产生错觉：只要 Agent 能点网页、能接几个工具、能写几段代码，就已经接近“企业可用”。但只要你真的把它放进生产环境：接 Git 仓库、接内部 OAuth、接私有 VPC、连续执行长链路任务，你就会很快发现，问题的重点不再是“模型到底会不会做”，而是“这个系统能不能在现实世界的不确定性里持续做下去”。

Anthropic 这次真正押注的，就是后一个问题。

换句话说，它在把 Claude 往可托管的工作进程方向推，而不再停留在聊天产品层。

二、官方工程文最有洞察力的一句话：不要把今天的 harness，当成明天的平台基础

Claude Managed Agents 官方工程文里最值得反复看的，是一句非常系统设计导向的话：

Harnesses encode assumptions that go stale as models improve.

翻成更直白的话就是：很多 Agent harness 里的逻辑，本质上只是针对“当前模型还不够强”的临时补丁；模型一旦升级，这些补丁就可能从增强器变成包袱。

过去一年多，几乎所有 Agent 框架都在做同一件自然的事：哪里不稳，就往 harness 层补。

容易忘上下文，就加 compaction
容易提前结束，就加 reset
不会拆任务，就加 planner
不会重试，就加 evaluator
不会调工具，就加 router
不会统筹多步骤，就加 coordinator

这些做法在当下都未必错，甚至常常必要。但真正的问题在于：如果你把这些“当前模型短板的补丁”直接固化成平台基础设施，你其实是在让未来的系统长期适配今天的局限。

Anthropic 这次不想继续这样做。它没有把某一种具体 harness 神化成平台本身，而是开始抽取那些更可能长期稳定存在的接口，把不断变化的部分留给实现层。

这其实是一种非常“操作系统式”的思路：

平台稳定的是接口，不是当前实现
平台要为未来尚未出现的实现预留空间
上层能力可以持续演化，而不被某一代 workaround 绑死

所以 Claude Managed Agents 更准确的定位，是一个 meta-harness runtime。把它理解为“官方版 Agent 编排器”会低估它的野心。它不预设未来 Claude 一定依赖哪种 harness，只提供一组稳定接口，让未来不同的 harness 都能挂上来继续演进。

这件事为什么重要？因为它说明 Anthropic 已经把 Agent 从“prompt + tools + orchestration”的应用层问题，推进成一种长期演化系统的接口设计问题。这是平台公司思维，也更接近底座思维。

三、真正的技术骨架：Session、Harness、Sandbox 三层抽象

Anthropic 官方把 Managed Agents 拆成了三层：

Session：append-only 的事件日志，记录任务过程中发生的一切
Harness：负责调用 Claude、推进 agent loop、路由工具调用
Sandbox：Claude 真正运行代码、编辑文件、做执行动作的环境

如果只看这三个词，似乎不算惊艳。真正关键的是：这三层不再默认绑死在一个容器里。

这就是整个架构升级的核心。

过去很多 Agent 系统天然会走向一种“把所有东西塞进一个容器”的实现：

思考循环在里面
文件系统在里面
session 状态在里面
工具访问在里面
凭证也可能在里面

这种设计短期好处非常明显：实现快、路径短、延迟低、调试直觉、文件编辑也是直接 syscall。但一旦进入生产环境，它会迅速暴露几个典型 infra 问题：

容器挂了，session 可能跟着挂
容器卡住，工程师只能进容器排查，而容器里可能混着用户数据
思考、执行、状态、凭证处在同一边界里，风险互相污染
客户想接自己的 VPC，要么 network peering，要么把整套 harness 带进客户环境
模型生成的不可信代码，可能与企业 credential 处在同一执行平面

Anthropic 这次真正做的，是把“容器不该承担的职责”拆出去，而不是继续在单个容器上缝缝补补。这一步意味着它开始把 Agent 从“一个能跑的原型容器”，升级成“一组有稳定接口、可独立替换的系统部件”。

这背后对应的也不只是实现偏好，核心是一条非常明确的平台判断：长周期 Agent 的可靠性，必须建立在组件之间可恢复、可重建、可替换的关系上，不能押注某个具体宿主进程永远不出事。

四、brain / hands / session 解耦，为什么是这次发布真正的分水岭

Anthropic 在文中用了一个很直观的说法：把 brain 和 hands 解耦。

brain：Claude + harness，负责思考、判断、规划、调用
hands：sandbox、外部工具、执行环境，负责真正动手
session：作为 durable log，记录整个任务过程中的事实轨迹

这个拆法的价值，远远不止概念更漂亮；它同时重写了失败语义、记忆语义、安全语义和扩展语义。

1. 失败语义：失败不再是系统事故，而是可处理状态

旧设计里，一个容器往往就是整个 agent session 的命门。容器挂了，状态可能没了；容器卡了，就得人工进去救；容器断了，会话就像死在一块黑盒里。

Anthropic 现在把这件事改写了：

sandbox 死掉，只是一次 tool-call error
harness 挂掉，可以通过 wake(sessionId) 再次拉起
session log 依旧存在，可以从上次事件继续恢复
container 可以重新 provision({resources})

也就是说，它把很多过去只能靠人工救火的问题，收敛成了系统内部的一类正常状态迁移。对企业环境来说，这一点比任何单次 benchmark 都重要，因为长周期 Agent 不可能像宠物服务器一样被照看，它必须按照 cattle 的方式管理。

这里最值得注意的，是 Anthropic 把“稳定”理解成“出了错也能继续”，而不是“永远不出错”。这是一种更成熟的生产系统观：真正的韧性来自失败后的恢复路径、状态路径和重启语义。

2. 记忆语义：持久化记忆的本质，在于状态被系统外化

传播里最容易被说歪的一点，是“Managed Agents 让模型有持久化记忆”。方向没错，但不够准确。

更准确的说法是：Anthropic 把记忆从上下文窗口问题，提升成了状态系统问题。

上下文窗口有几个天然限制：

不是持久化存储
容量有限
压缩往往不可逆
你并不知道未来哪段信息会再次重要

Anthropic 的解法则是：

session log 作为 durable state，放在模型窗口之外
harness 通过 getEvents() 选择性回捞
Claude 不需要一直背着全部历史 token 前进
context engineering 可以变化，但底层状态存储不需要跟着推倒重来

所以更准确的说法是：系统替模型保留了一份可查询、可恢复、可再利用的任务历史，而不是把希望押在“模型自己记得更久”上。这一步很像从 prompt engineering 转向 event-sourcing：它把“长期任务记忆”从一个提示词技巧，升级成了运行时能力。

这件事带来的真正变化，是把“上下文”从一次性消费品变成了可审计的工作资产。对企业来说，这种变化比“记忆更长”本身更重要，因为它决定了 Agent 能否进入真正需要追责、复盘、合规、回放的业务系统。

3. 安全语义：安全边界不再靠少给权限，而靠结构性隔离

Anthropic 官方文里最硬的一段，其实是安全设计。他们明确承认：如果 Claude 生成的不可信代码和 credential 在同一容器里，那么 prompt injection 一旦诱导模型读取环境变量，就可能拿走 token，进一步扩展成平台级风险。

这很关键，因为它说明 Anthropic 已经把 Agent 安全看成了运行时边界问题，不再停留在“提示词别被骗”“权限再细一点”这类局部修补。

他们给出的结构性解法包括：

token 不进入 sandbox 的直接可读范围
Git token 在 sandbox 初始化阶段完成 remote 绑定，但不交给 agent 自己持有
MCP / OAuth 凭证放在外部 vault
Claude 调工具通过 proxy 代调
harness 本身不感知凭证明文

这意味着 Anthropic 在卖的，已经超出了“Claude 更聪明”这一层，真正关键的是“Claude 自动化运行时更不容易把企业安全边界炸穿”。这对企业客户的吸引力，可能比任何 benchmark 都更现实。

而且它揭示了一个更深的趋势：随着 Agent 越来越像“会执行的软件”，传统 LLM 安全问题也会越来越接近“云原生权限与边界设计问题”，不再只是 prompt safety 问题。

4. 扩展语义：many brains, many hands 从架构图变成平台能力

Anthropic 在文中明确提到 many brains, many hands。这件事表面像多智能体，实际上更接近多执行环境的统一运行时抽象。

它意味着：

brain 不需要和某个固定容器永久绑定
hand 可以是容器、浏览器、MCP server，甚至任意工具环境
brain 与 hand 通过统一接口连接，而不是靠宿主关系耦合
多个 brain 可以只在需要时才拉起更多 hands

这件事早就超出了“多开几个 agent”那么简单的层面，它把多智能体从应用层编排推进到了平台层调度。

更重要的是，这种设计把多智能体协作从“谁负责拆任务”推进到了“谁负责调度资源与边界”。换句话说，Anthropic 想做的是一套 coordinator 可以放心依赖的基础设施层，而不只是一个更聪明的 coordinator。

五、时间到首 token（TTFT）背后的真正含义：Anthropic 优化的是交互成本，不只是速度

官方工程文中有一个容易被忽略，但很值得写进长文的点：TTFT（time-to-first-token）。

他们提到，过去如果把 brain 也放在容器里，那么每个会话都要先付出完整的容器准备成本：

拉环境
启进程
clone repo
把 pending events 拉下来

这意味着即使一个任务暂时根本不需要 sandbox，它也得先等那一整套准备动作完成。用户最直接感受到的，就是系统“反应很慢”。

Anthropic 现在的做法，是把 brain 从容器里移出来，让 sandbox 只在真正需要时才被 provision。于是：

不需要动手的任务，不再等整套执行环境冷启动
有些推理可以更快开始
orchestration 可以先基于 session log 工作
hands 变成按需调用，而不是固定前置依赖

官方给出的结果是：

p50 TTFT 下降约 60%
p95 TTFT 下降超过 90%

这组数字本身当然值得关注，但更重要的是它说明 Anthropic 很清楚：Agent 平台的体验，并不只取决于模型推理速度，而取决于整个运行时是否把“无效等待”降到了最低。

这实际上是在把 Agent 用户体验，从“模型快不快”推进到“系统有没有把不必要的启动成本延迟暴露给用户”。这是典型的平台思维，也区别于单点模型优化思维。

六、从技术到商业：Anthropic 正在把 Agent 从 token 经济学推向 runtime 经济学

从商业角度看，这次发布的意义甚至可能比技术层更大。

过去大模型公司的收入逻辑，大多围绕 token 展开：你调用多少输入输出，就收多少钱。这种模式有两个天然局限：

高度可比较，容易卷入价格战
无法完整覆盖长任务 Agent 的运行成本

因为一旦 Agent 进入长周期执行，真正消耗资源的部分就不止模型推理，还包括：

session 状态保留
sandbox 初始化与占用
tool proxy 与 MCP 调用
vault 与凭证代理
orchestration 调度
crash recovery
日志与可观测性
安全隔离带来的系统开销

这些资源不可能都用 token 计价表达清楚。

从当前公开传播来看，$0.08 / 小时 这个数字在大量二级报道和解读中频繁出现，但我暂时还没有从 Anthropic 官方工程文里直接看到定价明文。因此更稳妥的判断应该是：

Anthropic 正在明显把 Managed Agents 往 runtime / session / sandbox 这类平台级计费逻辑推进
$0.08/hr 可以作为市场传播信号引用，但正式文章中应写成“多家报道提及，需以官方 pricing 为准”

即便先不锁死这个数字，趋势已经足够清晰：Anthropic 想卖的，已经超出了“单次推理的智力”，核心是“持续运行智能体的云能力”。这更接近 Agent Runtime as a Service，也高于单纯的模型 API。

这件事的真正冲击在于：一旦顶级模型厂商开始把 session、sandbox、vault、proxy、recovery、orchestration 这些资源能力一起打包出售，它和传统 API 供应商就已经不在一个层级上竞争了。它更像是在从“模型供应商”转型成“智能体云平台”。

七、客户案例、传播数字与可采信边界

围绕 Claude Managed Agents 的外部讨论里，最容易失真的部分，不在技术架构，而在客户名单、传播数字和市场口径。

目前相对稳妥的公开信息包括：

Notion、Rakuten、Asana、Sentry 这些名字，已经在多家外部报道中反复出现，可以视作早期采用者线索
“面向 long-running sessions”“支持 multi-agent orchestration”“帮助企业更快部署 agent” 这类表述，与 Anthropic 官方工程文章释放出的方向基本一致
“10x faster” 这类说法传播很广，但更适合被理解为发布期的官方宣传口径，引用时需要保留距离感

相对需要谨慎处理的，则是另一类信息：

$0.08 / 小时 这类价格数字，在二级传播中出现频繁；如果缺少官方 pricing 页面或明确文档支撑，就不宜写成硬事实
“成功率提高 10 个百分点” 这类效果数字，如果没有公开 benchmark、白皮书或可复核实验条件，也不宜直接下结论
过于夸张的商业数字与客户战报，更适合直接剔除，避免削弱整篇文章的可信度

因此，更稳妥的写法是：技术骨架尽量立在官方工程叙事上，客户与市场信息只作为侧面佐证，所有高风险数字都保持克制。

这样处理的好处很直接：文章的判断力不会被传播口径拖垮，读者也更容易分清什么是 Anthropic 已经公开展示的能力，什么只是发布期被放大的市场叙事。

八、这次发布真正冲击的，涵盖开源框架，也涵盖一整层“基础设施伪平台”

很多人会问：Claude Managed Agents 会不会冲击 LangChain、AutoGen 这类开源框架？

会，但这不是最核心的冲击对象。

真正更危险的是过去两年里大量围绕“让模型跑起来”而成长起来的一类中间层：

通用 Agent 编排平台
通用 session 托管平台
通用 sandbox 执行中间件
通用工具代理层
通用企业级 memory / context 层
通用 Git / 文档 / 浏览器 / 工单 / OAuth 连接层

如果这些平台的价值主要建立在“我能帮你把模型接成一个长期运行 Agent”，那 Anthropic 这次的官方托管 runtime 一旦成熟，它们会立刻面临一个尖锐问题：

既然底层模型厂商已经把最难的 session、sandbox、recovery、安全边界、tool proxy 官方化了，我为什么还要多叠你这层中间复杂度？

这就是最典型的平台阳谋。它不需要消灭所有生态玩家，只要先把最通用、最脏、最基础的那层水电煤吸进自己的底座里，就足以迫使大量中间层重新证明自己的存在价值。

未来还能长期成立的，不会是“我也做一个托管 Agent 运行时”，而更可能是：

更懂行业结果的
更懂组织流程的
更懂特定软件栈的
更能把工作流写成治理规则的
更能做垂直数据与业务闭环的

换句话说：底层 runtime 一旦被平台商品化，真正昂贵的就不再是通用编排，而是行业理解。

这里的关键词其实不在“开源死不死”，真正该看的是“哪一层会被平台吸收、哪一层还保有稀缺性”。开源框架当然仍然有意义，尤其在实验、适配、多模型切换和特定团队内部搭建流程上；但如果一个产品的核心价值仅仅是“帮你把 Claude 或其他模型接成一个托管 Agent”，那它面对 Managed Agents 这类官方能力时，未来的空间一定会变窄。

九、Anthropic 和 OpenAI 正在走两条不同的路

如果把 Managed Agents 放回竞争格局里看，Anthropic 的方向其实非常清楚。

OpenAI 过去更强的势能，大量来自：

C 端触达
多模态体验
大众级产品频率
品牌与分发能力

Anthropic 这次 Managed Agents 的落点则明显偏向另一侧：

长任务
可恢复
可托管
安全边界
企业资源接入
多执行环境协调
平台级稳定接口

这其实是在讲一个非常明确的差异化故事：

我不一定要在所有消费级体验上赢你，但我可以成为那个最适合进入企业生产环境的 Agent 平台。

这个故事为什么有吸引力？因为 CTO 真正在意的，往往不在模型偶尔答偏一点，而在于：

会不会掉状态
能不能恢复
安全会不会出洞
接私有系统会不会太重
一旦出事能不能查清
会话一多会不会崩

Anthropic 现在就是在把这些最不性感、但最要命的问题，变成自己的平台护城河。

更进一步看，这种分化可能会让未来的大模型公司出现非常清晰的角色分层：

有的更像“消费级智能入口”
有的更像“企业级智能运行底座”

Anthropic 显然更想站在第二个位置上。

十、对传统 SaaS 与企业软件意味着什么：从 seat 逻辑走向 runtime 逻辑

如果 Managed Agents 真按 Anthropic 设想的路径发展下去，它的冲击会从 AI infra 生态内部继续外溢，进一步影响企业软件本身。

过去很多 SaaS 软件的商业逻辑建立在 seat 上：

一个员工一个座位
一个部门一套权限
一批人围绕软件界面完成协作

但 Agent 一旦真正被平台化、托管化，企业购买的对象就可能从“让某个人使用某个软件”，转向“让一个可以持续执行任务的智能体完成某类工作”。

这不意味着 seat 模式会立刻消失，但它会带来几个非常现实的问题：

哪些工作流程其实并不需要一直以人类 UI 为中心？
哪些任务原本依赖 seat 软件里的表单流转，其实可以被 runtime 化？
企业未来买的是更多人头，还是更多可控的自动执行能力？

这也是为什么外界会把 Managed Agents 的影响往 Workday、Asana、Notion 这类企业协作与工作流产品延伸。短期看，它们还是 Anthropic 的客户与合作方；中长期看，Agent runtime 一旦成熟，也会逼迫它们重新定义自己的价值。

未来真正能长期成立的 SaaS，不会只是“有一个界面让人点”，而更可能是：

有深流程沉淀
有数据与权限边界
有行业语义
能把人类和 Agent 同时纳入治理框架

也就是说，Managed Agents 的长期影响不会停留在“谁做 Agent 平台”，它还会推动企业软件重新定义‘软件中的执行者’。

十一、对中国企业和 AI 平台团队真正有价值的启发：别再重复造会被平台吸收的水电煤

如果站在中国企业、创业团队或内部 AI 平台负责人的角度看，这次发布真正值得带走的，不是某几个新 feature 本身，更是一种战略过滤器：

哪些东西你现在花大力气去造，未来很可能会被顶层平台快速吸收？

过去很多团队都很容易把下面这些能力当作长期壁垒：

通用 orchestration
通用 sandbox runtime
通用会话恢复
通用 tool routing
通用 memory / context management

这些能力当然必要，但是否值得继续作为“长期核心壁垒”去重仓，要重新想了。

因为顶层模型厂商一旦开始把这些通用脏活做成默认能力，继续把主要精力押在这里，很可能只是替平台做需求验证。

真正更值得深投入的，反而是那些不容易被 Anthropic、OpenAI、Google 直接商品化的层：

行业语义
数据治理
业务结果定义
组织规则与流程内化
特定软件生态的深集成
评估体系与闭环反馈

说得更直白一点：

未来越来越便宜的是 Agent 的运行，越来越贵的是对真实行业问题的理解。

谁还在重复造通用水电煤，谁就越容易被动；谁能把 runtime 平台化之后的红利，转成行业结果能力，谁才更可能留下真正的护城河。

对国内团队来说，这个判断尤其重要。因为中国市场很容易在每一波技术浪潮初期涌现一大批“平台层复制者”：看见国外有 framework、就做 framework；看见国外有 runtime、就做 runtime；看见国外有 memory layer、就做 memory layer。但如果顶层平台演化速度足够快，这些中间复制层很容易在产品还没形成真正护城河之前，就被源头能力吸走。

所以更值得问的问题，不在“要不要也做一个 Managed Agents”，而在：在 Managed Agents 这类能力普及之后，我们在本地市场真正还能提供什么不可替代的价值？

十二、为什么这件事对开发者心态也是一次重构：从“造 Agent”到“定义 Outcome”

Claude Managed Agents 的另一个深层影响，是它会改变开发者和平台团队的重心。

过去大家做 Agent，很容易把注意力集中在这些问题上：

prompt 怎么写
memory 怎么配
orchestration 怎么搭
工具怎么接
sandbox 怎么起
容错怎么补

但一旦这些东西逐步被平台官方吸收，开发者最有价值的工作就会发生转移：

你到底想让 Agent 交付什么结果？
什么叫“完成”？
什么叫“可接受”？
什么叫“必须重试”？
什么叫“风险过高要停下来交给人”？

这其实是在把开发者的核心职责，从“搭好一套能跑的管道”，转向“定义好一套能衡量结果的标准”。

这也是为什么 outcome / self-evaluation 这类能力在传播里会被不断强调。因为未来真正昂贵的，并非让 Agent 运行起来本身，而是让 Agent 朝着正确结果稳定收敛。

平台负责越来越多的基础设施，开发者和企业团队就必须把注意力转到：

任务定义
质量门槛
风险边界
人机协作点
组织级 policy

从这个角度看，Managed Agents 其实不仅是在改变技术栈，也是在改变 AI 时代的软件工程分工。

十三、结论：Agent 时代真正开始工业化的信号，是系统更可托管

如果一定要用一句话概括 Claude Managed Agents 的意义，我会这样说：

Anthropic 正在把 Agent 从一种“开发者自己拼起来的能力”，改造成一种“可以按平台方式被消费的运行时”。

这句话背后的变化非常深：

从 prompt engineering 转向 runtime engineering
从模型会不会做事，转向系统能不能托管事
从单轮回答质量，转向长任务生命周期管理
从 demo 成功率，转向生产系统可靠性
从“更会想”，转向“更能持续稳定地干”

这并不意味着 Anthropic 已经赢了，也不意味着所有开源 Agent 框架会立刻失去意义。但它确实清晰地指出了一条趋势线：未来 Agent 生态的主战场，越来越像云平台竞争，而越来越不像 prompt + workflow 的脚手架竞争。

如果 Anthropic 真能把这条路走通，那么它争夺的就远不止下一代 Claude 用户，更是下一代 AI 生产系统默认建在哪个底座之上。

那时候它卖的，也早已超出 Claude 本身。

它卖的是：让 Claude 长时间、低风险、带状态、可恢复、可审计地替你干活的整套云能力。

而对所有还在做 AI 平台、Agent 产品、企业智能化改造的人来说，这次发布真正的提醒也许只有一句：

别再只盯着模型会不会做事，要开始问：这套系统，是否已经到了能真正托管工作的程度。