2026-03-06 · AI
32
AI · 2026-03-06

大模型周刊 第22期 (2026年3月6日) :Agent 抢了聊天的饭碗

这周 AI 圈,八家公司有六家在做同一件事——把模型从聊天框里拽出来,塞进真实工作流。OpenAI 发了 GPT-5.4 Thinking,Google 祭出 Flash-Lite 降价牌,MiniMax 和 OpenClaw 把"一键部署"玩出了花。2026 年的战场在 Agent,不在对话。

OpenAI:GPT-5.4 Thinking 和"更像人"的 Instant

3 月 5 日,OpenAI 推出 GPT-5.4 Thinking 模型,附带系统卡片。推理、编码、Agent 工作流打包在一起,能直接处理复杂的 Excel、PPT 和文档任务,用户不用反复来回提问。同一天,ChatGPT 上线了 Excel 原生集成和金融数据接口,还发布了 Adoption 频道帮企业把 AI 价值模型落地。

两天前的 GPT-5.3 Instant 更新也值得说。OpenAI 针对社区吐槽做了调整:网页搜索更准了,那些"过度谨慎"的回答少了,不再动不动"我无法确认"。

用户的反应?Reddit 和 Twitter 上主流评价是"更自然,不那么令人尴尬了"。有人贴了对比数据:搜索幻觉率降了约 27%,日常错误率降了 23%。不过争论没停——"Instant 够好,但足以让我从 Claude 切回来吗?不一定。"

OpenAI 还和 Amazon 签了合作,方向是 Agent 运行时环境。

Anthropic:安静的一周,但底盘还在

本周 Anthropic 没有发新模型。Claude Opus 4.6、Sonnet 4.6 和 Claude Code Security(2 月 20 日发布)仍在发酵。企业端插件推广在推进,Excel 和 PowerPoint 集成已经有人在用了。

社区讨论集中在两个方向:编码场景下 Claude 的优势依然稳固;有人提到此前美国国防部供应链事件对企业采购的影响。后者不是本周新闻,但情绪还在。

Google:Flash-Lite 的价格战

3 月 3 日,Google 放出 Gemini 3.1 Flash-Lite 预览版。卖点很直接——成本只有 Pro 版的八分之一,推理和多模态都能用。目标很明确:需要大批量部署的企业和开发者。

Gemini 3.1 Pro 和 Deep Think 模式还在迭代,NotebookLM 新增了科学工程领域的推理支持。

开发者的态度比较一致:Flash-Lite 适合高频轻量任务,性价比确实高,但遇到复杂推理还是得上 Pro。"便宜"和"好"不矛盾,但也不等价。

智谱 AI:GLM-5 技术报告公开

GLM-5(744B 参数)2 月中旬发布后,本周技术报告全面公开。几个关键点:全栈适配华为昇腾等国产芯片,Coding 和长程 Agent 能力在开源模型里跑到了最好成绩,使用体感接近 Claude Opus 4.5。异步智能体强化学习框架是个亮点。

开发者反馈比较实在——"幻觉率控制得好,复杂工程项目能用",但推理速度不算快,跟轻量模型比有差距。

744B 开源本身就是信号。模型能力到了这个级别还能开源,说明中国 AI 公司的底层逻辑跟硅谷已经走出差异了。

OpenClaw:登陆 Amazon Lightsail

3 月 4 日,OpenClaw 正式上线 Amazon Lightsail。一键部署自托管 AI Agent,能连 WhatsApp、Discord,直接接入 Amazon Bedrock,不用额外配置。

GitHub 星标突破 25 万,超过了 React。3 月 2 日版本更新了 secrets 管理、PDF 原生工具和统一的 sendPayload 适配器。

中文社区的反应很热——"部署门槛终于降下来了"。有 MiniMax 用户说"10 秒跑通全功能 Agent"。这个评价可能有水分,但趋势对了:自托管 Agent 正在从极客玩具变成普通开发者能碰的东西。

月之暗面:平静期

Kimi 本周没有新模型。K2.5(1 月发布)在持续优化 Kimi Code 配额,永久三倍提升。Agent 集群功能还在测试。

社区对原生多模态和 100 个分身调度有讨论,但热度低于这周的编码类模型。Agent 成为焦点的一周,Kimi 稍显安静。

MiniMax:MaxClaw 和便宜的哲学

MiniMax 推出 MaxClaw 云端 AI 助手,让 OpenClaw 实现零配置一键部署,不收额外 API 费用。Agent Expert 2.0 同步升级,支持用自然语言生成垂类专家——做 PPT、跑金融分析都行。

M2.5 调用量在 OpenRouter 上继续领跑。激活参数只有 10B,推理速度很快。社区评价集中在一句话:"95% 接近 Opus 水平,价格便宜很多。"

MiniMax 的打法很清楚——不争最强,争"够用且便宜"。对绝大多数场景来说,够用比最强更实际。

DeepSeek:等 V4

没有新发布。V4 的预期还停留在 2 月那一轮讨论里,mHC 架构论文持续被引用。社区对编程和长上下文潜力有期待,但实际动态以生态优化为主。

等 V4 落地,才有新东西可聊。

这周的信号

翻完八家公司的动态,一个趋势很清楚:聊天已经不是终点。OpenAI 的 Agent 运行时、Google 的 Flash-Lite 降价、MiniMax 和 OpenClaw 的一键部署——所有人都在把模型往真实工作流里塞。

开源和国产化还是热。GLM-5 开源、OpenClaw 生态、MiniMax 低价路线,调用量和 GitHub 热度都在涨。

用户选模型看三件事:速度、成本、幻觉控制。OpenAI 在"自然度"上得分高,MiniMax 和 OpenClaw 在"上手难度"上赢了。

下周盯两件事:DeepSeek V4 有没有实质进展,OpenAI 的 Agent 运行时生态怎么落地。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单