大模型周刊第21期 (2026年2月21日-27日) Agent 不再聊天了

作者：toy | 2026-02-28

2月最后一周，大模型行业完成了一次集体换挡——从"对话"切到"执行"。OpenAI 把 Agent 运行时搬上 AWS，Anthropic 让 Claude 直接操作 Excel 和 Gmail，Google 在手机上跑多步 Agent，中国厂商则用 Token 消耗量投出了真金白银的选票。

一个数据足够说明问题：OpenRouter 2月报告，中国模型 Token 调用量首次超过美国，前五名占了四席。

基础设施：Agent 运行时成了新战场

OpenAI × 亚马逊：状态化运行时

2月27日，OpenAI 和亚马逊宣布合作，在 AWS Bedrock 上推出 Stateful Runtime Environment for Agents。核心卖点三个：持久记忆、工具调用、多步执行。开发者不用自己拼凑 Agent 的状态管理了，平台直接给你兜底。

同期，OpenAI 和 Pentagon 达成安全部署协议。灵活务实，商业先行。X 上的评价两极分化——有人说"Agent 时代真正来了"，也有人觉得红线这东西一旦开始弹性，就没有底了。

Anthropic：企业插件 + 政府翻脸

Anthropic 这周干了两件大事。

第一件：推出部门定制插件，Claude 能直接在 Excel、PowerPoint、Google Drive、Gmail、DocuSign 里执行多步任务。不是"帮你写个邮件草稿"那种，是真的点开应用、操作界面、完成流程。2月23日发布的 Claude Code 更狠，号称能在数月内把老旧 COBOL 系统现代化。程序员管它叫"IBM mainframe 杀手"。

第二件：CEO Dario Amodei 公开拒绝大规模国内监控和完全自主武器。特朗普政府随即终止合作，把 Anthropic 列为"供应链风险"。企业合同受到冲击。

两件事放在一起看，就是个经典困境：技术做得越好，政治博弈的筹码越高，拒绝的代价也越大。

应用层：Agent 从 Demo 走进手机和聊天窗口

Google Gemini 3.1 Pro + 移动 Agent

2月 Gemini Drop 带来几个升级：Gemini 3.1 Pro 上线，复杂问题解决能力提升明显；Deep Think 模式强化科研和工程场景；Opal 无代码 Agent 构建器支持动态规划。

更有意思的是 Google 和 Samsung 联手，在 Pixel 10 和 Galaxy S26 上部署多步移动 Agent。用户在聊天里说"帮我订周五晚上的机票"，Agent 真的能打开 App、填表、下单。科研工作者评价 Deep Think 是"PhD 级助手"，移动 Agent 的演示则让人觉得 Siri 可以退休了。

OpenClaw：开源 Agent 平台的野蛮生长

Peter Steinberger 开发的开源 AI Agent 平台 OpenClaw 持续扩散。它通过 WhatsApp、Discord 等聊天工具控制电脑——文件管理、邮件收发、浏览器操作、代码部署，本地优先，支持持久记忆，可接入各家模型。

中国厂商跟进速度很快。月之暗面推出 Kimi Claw（云端部署，199元起），MiniMax 的 MaxClaw 同步上线，阿里云和腾讯云更早就入局了。

实际体验怎么样？极客圈很兴奋，GitHub 星标暴涨，多 Agent 协作写代码确实爽。但吐槽也不少：文件搜索失败率高、邮件处理会卡死、浏览器操控不够稳定。安全方面的担忧更突出——prompt injection 和凭据泄露是两个硬伤。目前适合开发者折腾，普通用户建议再等等。

Steinberger 本人已经加入 OpenAI，项目转由基金会维护。

算力经济：中国模型的 Token 战争

OpenRouter 2月数据给了一个清晰信号。

MiniMax M2.5：超5万亿 Token，榜首。全球第一个 Agent 原生生产级模型，编程和 Office 任务跑分 SOTA，代码生成占公司收入 80%
月之暗面 Kimi K2.5：4万亿+ Token，紧随其后。多模态加 Agent Swarm（并行100个子智能体），近20天收入超过2025全年，海外收入首次超国内
DeepSeek V3.2：长上下文和推理能力领先，DualPath 推理系统让 Agent 吞吐接近翻倍
智谱 GLM-5：Agent 规划和工具调用表现出色，国产芯片全适配

四家加起来贡献了 OpenRouter 平台 85.7% 的 Token 消耗，中国调用量环比暴增 127%。

为什么能赢？不是模型能力碾压（在推理和长文本上接近一线，但还没拉开差距），而是价格。同样跑一个 Agent pipeline，用中国模型的成本可能只有 Claude 或 Gemini 的几分之一。对于 Agent 这种动辄几十轮调用的场景，Token 单价就是命门。

海外社区有"distillation"的指控，但用户端的感受很直接：能用、便宜、够快。

Anthropic 的选择题

这周最值得多想一步的不是某个发布，而是 Anthropic 的处境。

技术上，Claude 的企业插件和 Claude Code 是实打实的能力跃迁。商业上，被政府列为"供应链风险"意味着联邦合同、国防订单、乃至部分企业客户的流失。Dario 选择了画线——不做大规模监控，不做自主武器。OpenAI 选择了灵活——和 Pentagon 达成协议，和亚马逊深度绑定。

两条路都有道理，但后果不同。Agent 时代的基础设施之争，不只是技术和产品的竞赛，还是"你愿意给谁干活"的政治表态。

下周看什么

DeepSeek V4 或 MiniMax 业绩发布，可能再搅动一轮
OpenAI/Amazon Agent 生态的实际落地案例
Agent 的可靠性和安全问题——现在跑 Demo 都很炫，真上生产环境会暴露多少坑？

想上手试试 Agent 工作流的话，两个起点：如果你是开发者，OpenClaw + 任意一家中国模型（GLM-5 或 Kimi K2.5），成本低、自由度高；如果你在企业环境，Claude 的插件生态目前最成熟，直接操作 Office 和 Google Workspace 的体验确实领先。

大模型周刊 第21期 (2026年2月21日-27日) Agent 不再聊天了