大模型周刊第27期 AI 不再聊天，它开始"干活"了

TL;DR：本周 AI 圈的关键词只有一个——执行力。OpenAI Codex 变身 Mac 大脑，Claude Opus 4.7 悄然落地，OpenClaw 用一次"好的无聊发布"黏合了整个生态，Kimi K2.6 几秒钟搭完一个完整应用。网络安全 AI 竞赛正式开启，智谱 AI 因"西方税"意外在海外走红。AI 从"回答问题"到"替你干活"的拐点，本周正式到来。

🔥 本周最大叙事：Agent 执行层爆发

过去两年大模型在比"谁更聪明"，本周的主题已经切换到——谁更能干。

从 OpenAI 到 Anthropic，从开源框架到中国厂商，所有人都在回答同一个问题：AI 能不能真正替人类完成工作闭环？

答案正在从"差不多"变成"真的可以"。

1. OpenAI：Codex 不再只写代码，它接管了你的 Mac

发生了什么

4 月 16 日，OpenAI 发布 Codex 重大升级。别再叫它"写代码助手"了——它现在能操作 Mac 应用、连接外部工具、生成图像、从历史动作学习、记住用户偏好，并处理重复性长期任务。

官方原话："Codex for (almost) everything"。

从"回答问题"到"执行操作"，Codex 完成了跃迁。

同期 OpenAI 还推出了 GPT-5.4-Cyber——专门优化二进制逆向工程的微调变体，瞄准网络安全防御市场。

用户怎么说

"Mac 有了 AI 大脑，这波太疯狂了"
"终于不用在工具间反复切换"
"视频里 Codex 自主完成多步工作流，看呆了"

社区瞬间刷屏。兴奋是主旋律，但理性的声音也在：权限控制怎么做？安全边界在哪里？

场外新闻

CEO Sam Altman 的住所及 OpenAI 总部本周遭汽油弹袭击，嫌犯已被捕，动机疑与 AI 军事化争议有关。OpenAI 与美国政府的军事合作协议也引发了广泛的道德讨论。

2. Anthropic：Opus 4.7 落地 + 一个"强到不敢发布"的模型

发生了什么

Claude Opus 4.7 本周正式多平台落地。升级亮点：

长代码编写能力大幅增强
视觉智能与文档分析显著提升
更换新 Tokenizer（注意：Token 消耗增加约 1.0–1.35 倍）

更劲爆的是：Anthropic 透露内部存在一个名为 "Mythos" 的模型，因其在网络安全漏洞挖掘方面的能力"强到危险"，被禁止向公众发布，仅通过 "Project Glasswing" 向受信任机构开放。

用户怎么说

"First impressions 很正面，复杂代码工作流中表现稳健"
"Claude 又把门槛拉高了"
"生成的 UI 和幻灯片排版比之前专业太多"

也有吐槽：4.7 虽然变快了，但部分用户认为推理深度不如 4.6。新分词器带来的 Token 成本上升也是真实痛点。

3. Google：机器人的"GPT 时刻"来了

发生了什么

4 月 14 日，Google DeepMind 发布 Gemini Robotics-ER 1.6：

机器人空间理解能力大升级
自主任务规划能力增强
可配合 Boston Dynamics 等硬件阅读复杂仪表、规划工业任务
已在 Google AI Studio 可用

Gemini 还全面接管了 Google Home 智能家居——改进"抢话"检测，嘈杂环境识别率大幅提升。在《人类最后考试》榜单中，Gemini 3.1 Pro 拿下 44.4% 高分。

用户怎么说

"这是 robotics 的 GPT moment"

机器人社区期待值拉满。Coding 工具侧稳定性也有提升，整体正面但声量偏垂直。

4. 智谱 AI：被"西方税"逼出的逆向文化输出

发生了什么

智谱 AI 针对海外用户的 GLM Coding Plan 再次涨价。结果？大量外国开发者在 Reddit/X 分享教程，研究如何通过 VPN 和中国手机号注册智谱国内版以省钱。

一场奇特的"逆向文化输出"正在发生——海外用户主动学习中国互联网生态。

资本侧，智谱本周斥资 3.6 亿元买入北京红钻大厦，扩充线下算力中心。

用户怎么说

"GLM 在某些 loop 反馈场景下会 fallback，需要人工介入"
"但性价比依然是最能打的"

整体被视为 Agent 能力强、性价比高的选项。

5. OpenClaw：一次"好的无聊发布"，粘合了整个 Agent 生态

发生了什么

本周 MVP。 4 月 16 日，OpenClaw 发布 v2026.4.15（含 beta），官方自称"好的无聊发布"（good boring release）。核心升级：

✅ 支持 Anthropic Opus 4.7 模型
✅ 集成 Gemini TTS
✅ 上下文精简 + 有限内存读取
✅ Codex 传输自我修复
✅ 工具/媒体处理更安全

商业端更炸：邮储银行（PSBC-Claw） 等金融巨头宣布基于 OpenClaw 部署内部私有化 Agent 阵列。Intel 宣布 Panther Lake 处理器针对 OpenClaw 进行混合推理优化，支持本地跑 30B 级别模型。

用户怎么说

"扎实、不玩虚的"
"用它 + OKX Trade Kit 做自动化交易，真香"
"Kimi K2.6 + OpenClaw 几秒钟搭完整欢迎流程，不用请开发者了"

安全讨论仍存（前期漏洞已修复），但生态热情高涨，VPS 部署和技能集成案例持续增多。

6. 月之暗面（Kimi）：从"写得漂亮"到"做得出来"

发生了什么

Kimi K2.6 近期更新重点强化全 App 构建能力，支持 OpenClaw 深度集成，可实现端到端自动化工作流：自动拉取信息、打标签、发送邮件……

长文本处理能力本周再次优化：支持跨 50 篇长文档的联合推理。

用户怎么说

"几秒钟搭完整欢迎流程"
"真正把产品做出来而不是只写文字"
"补上了 Claude '写得漂亮但不落地'的短板"

与 OpenClaw 搭配后生产力直接起飞——这是用户的原话。

7. MiniMax & DeepSeek：安静的实力派

MiniMax

亮相 Harvard XR 2026 峰会，展示 M2.7 多模态模型，主打超写实语音与空间计算的结合。全球活跃用户已突破 2.5 亿。

DeepSeek

V4 依然"跳票"，但 Token 消耗量在 OpenRouter 等全球 API 聚合平台中占据近 40% 份额——极致性价比的无声证明。

用户怎么说

零星讨论集中在"GLM vs DeepSeek vs MiniMax"的性能权衡上。没有集中吐槽，也没有惊喜。低调运行，闷声赚钱。

📊 本周全景图

玩家
关键动作
一句话评价

OpenAI
Codex 接管 Mac + GPT-5.4-Cyber
从聊天到干活，跃迁完成

Anthropic
Opus 4.7 落地 + Mythos 禁发
能力拉满，安全优先

Google
Robotics-ER 1.6 + Home 接管
机器人的 GPT 时刻

智谱 AI
海外涨价 + 3.6 亿买楼
逆向文化输出

OpenClaw
v2026.4.15 稳定版
"好的无聊"= 生态粘合剂

Kimi
K2.6 全 App 构建
从写字到做产品

MiniMax
M2.7 + 2.5 亿用户
闷声干大事

DeepSeek
API 份额 40%
性价比之王

🔮 下周值得关注

DeepSeek V4 是否会突袭发布？
Meta 会否对 OpenAI 的军事合作做出回应？
OpenClaw 后续技能生态扩展
更多机器人 / 多模态落地案例

💬 编辑观点

本周有两件事正式开始了。

"网络安全 AI 竞赛"。 头部大厂不再单纯卷参数量，开始卷"特定领域准入"——谁能用、怎么用、用到什么程度，成为新的竞争维度。

"Agent 闭环元年"。 从 Codex 到 OpenClaw，从 Kimi 到 Claude，"让 AI 真正干活"不再是 PPT 上的愿景，而是用户可以触摸的生产力。当开发者说出"终于能闭环了"的时候——拐点已经过去了。

如果你还没试过让 AI 替你跑一个完整工作流，这周是个好时机。

作者：toy