作者:toy | 2026-02-28
2月最后一周,大模型行业完成了一次集体换挡——从"对话"切到"执行"。OpenAI 把 Agent 运行时搬上 AWS,Anthropic 让 Claude 直接操作 Excel 和 Gmail,Google 在手机上跑多步 Agent,中国厂商则用 Token 消耗量投出了真金白银的选票。
一个数据足够说明问题:OpenRouter 2月报告,中国模型 Token 调用量首次超过美国,前五名占了四席。
基础设施:Agent 运行时成了新战场
OpenAI × 亚马逊:状态化运行时
2月27日,OpenAI 和亚马逊宣布合作,在 AWS Bedrock 上推出 Stateful Runtime Environment for Agents。核心卖点三个:持久记忆、工具调用、多步执行。开发者不用自己拼凑 Agent 的状态管理了,平台直接给你兜底。
同期,OpenAI 和 Pentagon 达成安全部署协议。灵活务实,商业先行。X 上的评价两极分化——有人说"Agent 时代真正来了",也有人觉得红线这东西一旦开始弹性,就没有底了。
Anthropic:企业插件 + 政府翻脸
Anthropic 这周干了两件大事。
第一件:推出部门定制插件,Claude 能直接在 Excel、PowerPoint、Google Drive、Gmail、DocuSign 里执行多步任务。不是"帮你写个邮件草稿"那种,是真的点开应用、操作界面、完成流程。2月23日发布的 Claude Code 更狠,号称能在数月内把老旧 COBOL 系统现代化。程序员管它叫"IBM mainframe 杀手"。
第二件:CEO Dario Amodei 公开拒绝大规模国内监控和完全自主武器。特朗普政府随即终止合作,把 Anthropic 列为"供应链风险"。企业合同受到冲击。
两件事放在一起看,就是个经典困境:技术做得越好,政治博弈的筹码越高,拒绝的代价也越大。

应用层:Agent 从 Demo 走进手机和聊天窗口
Google Gemini 3.1 Pro + 移动 Agent
2月 Gemini Drop 带来几个升级:Gemini 3.1 Pro 上线,复杂问题解决能力提升明显;Deep Think 模式强化科研和工程场景;Opal 无代码 Agent 构建器支持动态规划。
更有意思的是 Google 和 Samsung 联手,在 Pixel 10 和 Galaxy S26 上部署多步移动 Agent。用户在聊天里说"帮我订周五晚上的机票",Agent 真的能打开 App、填表、下单。科研工作者评价 Deep Think 是"PhD 级助手",移动 Agent 的演示则让人觉得 Siri 可以退休了。
OpenClaw:开源 Agent 平台的野蛮生长
Peter Steinberger 开发的开源 AI Agent 平台 OpenClaw 持续扩散。它通过 WhatsApp、Discord 等聊天工具控制电脑——文件管理、邮件收发、浏览器操作、代码部署,本地优先,支持持久记忆,可接入各家模型。
中国厂商跟进速度很快。月之暗面推出 Kimi Claw(云端部署,199元起),MiniMax 的 MaxClaw 同步上线,阿里云和腾讯云更早就入局了。
实际体验怎么样?极客圈很兴奋,GitHub 星标暴涨,多 Agent 协作写代码确实爽。但吐槽也不少:文件搜索失败率高、邮件处理会卡死、浏览器操控不够稳定。安全方面的担忧更突出——prompt injection 和凭据泄露是两个硬伤。目前适合开发者折腾,普通用户建议再等等。
Steinberger 本人已经加入 OpenAI,项目转由基金会维护。

算力经济:中国模型的 Token 战争
OpenRouter 2月数据给了一个清晰信号。
- MiniMax M2.5:超5万亿 Token,榜首。全球第一个 Agent 原生生产级模型,编程和 Office 任务跑分 SOTA,代码生成占公司收入 80%
- 月之暗面 Kimi K2.5:4万亿+ Token,紧随其后。多模态加 Agent Swarm(并行100个子智能体),近20天收入超过2025全年,海外收入首次超国内
- DeepSeek V3.2:长上下文和推理能力领先,DualPath 推理系统让 Agent 吞吐接近翻倍
- 智谱 GLM-5:Agent 规划和工具调用表现出色,国产芯片全适配
四家加起来贡献了 OpenRouter 平台 85.7% 的 Token 消耗,中国调用量环比暴增 127%。
为什么能赢?不是模型能力碾压(在推理和长文本上接近一线,但还没拉开差距),而是价格。同样跑一个 Agent pipeline,用中国模型的成本可能只有 Claude 或 Gemini 的几分之一。对于 Agent 这种动辄几十轮调用的场景,Token 单价就是命门。
海外社区有"distillation"的指控,但用户端的感受很直接:能用、便宜、够快。

Anthropic 的选择题
这周最值得多想一步的不是某个发布,而是 Anthropic 的处境。
技术上,Claude 的企业插件和 Claude Code 是实打实的能力跃迁。商业上,被政府列为"供应链风险"意味着联邦合同、国防订单、乃至部分企业客户的流失。Dario 选择了画线——不做大规模监控,不做自主武器。OpenAI 选择了灵活——和 Pentagon 达成协议,和亚马逊深度绑定。
两条路都有道理,但后果不同。Agent 时代的基础设施之争,不只是技术和产品的竞赛,还是"你愿意给谁干活"的政治表态。
下周看什么
- DeepSeek V4 或 MiniMax 业绩发布,可能再搅动一轮
- OpenAI/Amazon Agent 生态的实际落地案例
- Agent 的可靠性和安全问题——现在跑 Demo 都很炫,真上生产环境会暴露多少坑?
想上手试试 Agent 工作流的话,两个起点:如果你是开发者,OpenClaw + 任意一家中国模型(GLM-5 或 Kimi K2.5),成本低、自由度高;如果你在企业环境,Claude 的插件生态目前最成熟,直接操作 Office 和 Google Workspace 的体验确实领先。