大模型周刊第22期 (2026年3月6日) ：Agent 抢了聊天的饭碗

这周 AI 圈，八家公司有六家在做同一件事——把模型从聊天框里拽出来，塞进真实工作流。OpenAI 发了 GPT-5.4 Thinking，Google 祭出 Flash-Lite 降价牌，MiniMax 和 OpenClaw 把"一键部署"玩出了花。2026 年的战场在 Agent，不在对话。

OpenAI：GPT-5.4 Thinking 和"更像人"的 Instant

3 月 5 日，OpenAI 推出 GPT-5.4 Thinking 模型，附带系统卡片。推理、编码、Agent 工作流打包在一起，能直接处理复杂的 Excel、PPT 和文档任务，用户不用反复来回提问。同一天，ChatGPT 上线了 Excel 原生集成和金融数据接口，还发布了 Adoption 频道帮企业把 AI 价值模型落地。

两天前的 GPT-5.3 Instant 更新也值得说。OpenAI 针对社区吐槽做了调整：网页搜索更准了，那些"过度谨慎"的回答少了，不再动不动"我无法确认"。

用户的反应？Reddit 和 Twitter 上主流评价是"更自然，不那么令人尴尬了"。有人贴了对比数据：搜索幻觉率降了约 27%，日常错误率降了 23%。不过争论没停——"Instant 够好，但足以让我从 Claude 切回来吗？不一定。"

OpenAI 还和 Amazon 签了合作，方向是 Agent 运行时环境。

Anthropic：安静的一周，但底盘还在

本周 Anthropic 没有发新模型。Claude Opus 4.6、Sonnet 4.6 和 Claude Code Security（2 月 20 日发布）仍在发酵。企业端插件推广在推进，Excel 和 PowerPoint 集成已经有人在用了。

社区讨论集中在两个方向：编码场景下 Claude 的优势依然稳固；有人提到此前美国国防部供应链事件对企业采购的影响。后者不是本周新闻，但情绪还在。

Google：Flash-Lite 的价格战

3 月 3 日，Google 放出 Gemini 3.1 Flash-Lite 预览版。卖点很直接——成本只有 Pro 版的八分之一，推理和多模态都能用。目标很明确：需要大批量部署的企业和开发者。

Gemini 3.1 Pro 和 Deep Think 模式还在迭代，NotebookLM 新增了科学工程领域的推理支持。

开发者的态度比较一致：Flash-Lite 适合高频轻量任务，性价比确实高，但遇到复杂推理还是得上 Pro。"便宜"和"好"不矛盾，但也不等价。

智谱 AI：GLM-5 技术报告公开

GLM-5（744B 参数）2 月中旬发布后，本周技术报告全面公开。几个关键点：全栈适配华为昇腾等国产芯片，Coding 和长程 Agent 能力在开源模型里跑到了最好成绩，使用体感接近 Claude Opus 4.5。异步智能体强化学习框架是个亮点。

开发者反馈比较实在——"幻觉率控制得好，复杂工程项目能用"，但推理速度不算快，跟轻量模型比有差距。

744B 开源本身就是信号。模型能力到了这个级别还能开源，说明中国 AI 公司的底层逻辑跟硅谷已经走出差异了。

OpenClaw：登陆 Amazon Lightsail

3 月 4 日，OpenClaw 正式上线 Amazon Lightsail。一键部署自托管 AI Agent，能连 WhatsApp、Discord，直接接入 Amazon Bedrock，不用额外配置。

GitHub 星标突破 25 万，超过了 React。3 月 2 日版本更新了 secrets 管理、PDF 原生工具和统一的 sendPayload 适配器。

中文社区的反应很热——"部署门槛终于降下来了"。有 MiniMax 用户说"10 秒跑通全功能 Agent"。这个评价可能有水分，但趋势对了：自托管 Agent 正在从极客玩具变成普通开发者能碰的东西。

月之暗面：平静期

Kimi 本周没有新模型。K2.5（1 月发布）在持续优化 Kimi Code 配额，永久三倍提升。Agent 集群功能还在测试。

社区对原生多模态和 100 个分身调度有讨论，但热度低于这周的编码类模型。Agent 成为焦点的一周，Kimi 稍显安静。

MiniMax：MaxClaw 和便宜的哲学

MiniMax 推出 MaxClaw 云端 AI 助手，让 OpenClaw 实现零配置一键部署，不收额外 API 费用。Agent Expert 2.0 同步升级，支持用自然语言生成垂类专家——做 PPT、跑金融分析都行。

M2.5 调用量在 OpenRouter 上继续领跑。激活参数只有 10B，推理速度很快。社区评价集中在一句话："95% 接近 Opus 水平，价格便宜很多。"

MiniMax 的打法很清楚——不争最强，争"够用且便宜"。对绝大多数场景来说，够用比最强更实际。

DeepSeek：等 V4

没有新发布。V4 的预期还停留在 2 月那一轮讨论里，mHC 架构论文持续被引用。社区对编程和长上下文潜力有期待，但实际动态以生态优化为主。

等 V4 落地，才有新东西可聊。

这周的信号

翻完八家公司的动态，一个趋势很清楚：聊天已经不是终点。OpenAI 的 Agent 运行时、Google 的 Flash-Lite 降价、MiniMax 和 OpenClaw 的一键部署——所有人都在把模型往真实工作流里塞。

开源和国产化还是热。GLM-5 开源、OpenClaw 生态、MiniMax 低价路线，调用量和 GitHub 热度都在涨。

用户选模型看三件事：速度、成本、幻觉控制。OpenAI 在"自然度"上得分高，MiniMax 和 OpenClaw 在"上手难度"上赢了。

下周盯两件事：DeepSeek V4 有没有实质进展，OpenAI 的 Agent 运行时生态怎么落地。

大模型周刊 第22期 (2026年3月6日) ：Agent 抢了聊天的饭碗