RSS 周刊第 3 期：这一周，AI Agent 圈开始把“能力”换成“安全阀”和“信任证明”

这一周最值得记住的，不是又多了几个 Agent SDK，也不是哪家模型又把能力榜单往前推了一格。

真正的变化是，AI Agent 这条线开始从“能不能做更多事”，转向“谁敢把它放进真实系统里”。安全、身份校验、可审计 harness、生产级沙箱、策略透明度，这些过去常被当成配套件的东西，这一周开始越来越像主产品。

换句话说，Agent 赛道正在过一个很关键的坎。上一阶段大家拼的是能力边界，谁能多接几个工具、谁能多自动化几步、谁能更像一个会干活的数字员工。现在开始拼的，是把这些能力放进生产环境之后，会不会出事，出了事能不能收住，用户和企业愿不愿意把更高权限交给它。

如果把这一周的链接压缩成一个总判断，那就是一句话：Agent 的上半场是“展示能力”，下半场开始比“安全阀、边界管理和信任成本”。

1、OpenAI Agents SDK 更新，真正重要的不是 SDK 本身，而是它把 harness 推到了台前

链接：https://openai.com/index/the-next-evolution-of-the-agents-sdk

OpenAI 这次更新 Agents SDK，表面上看是功能增强，关键词包括原生沙箱执行、模型原生 harness、长任务支持、文件与工具协同。单看这些词，很容易把它理解成又一次“Agent 更强了”。

但更值得记住的，其实不是“更强”，而是它越来越明确地承认：真正难的不是模型会不会推理，而是模型在真实运行时，怎么被包起来、怎么接工具、怎么限制权限、怎么留下审计面。

这也是为什么 The New Stack 那篇《OpenAI’s Agents SDK separates the harness from the compute》值得连着看。那篇文章点得很准，今天的 Agent 产品，计算本身越来越商品化，真正拉开差距的，是 harness，也就是把模型接进文件、工具、沙箱、状态和执行边界里的那一层。

以后再看 Agent 产品，不能只看它“会不会写代码”，要看它怎么接文件、怎么跑沙箱、怎么处理中断、怎么留痕、怎么控权。没有这些，所谓强能力只是 demo 能力。

2、Anthropic 开始给 Claude 加身份验证，这说明风险治理已经从“内容层”走向“账户层”

链接：https://thenewstack.io/anthropic-claude-identity-verification/

这一周另一个很强的信号，是 Anthropic 开始在 Claude 某些高风险使用场景上引入身份验证层。

这件事的意义，不在于多了一道注册步骤，而在于它透露出一个方向：当模型能力继续增强，尤其是在网络安全、自动化执行和高权限代理场景里，平台已经不再只满足于靠提示词和策略分类器做内容控制，而是开始把风控前移到“谁在用、在什么场景下用、是否值得信任”这一层。

这会让很多人不舒服，因为它确实意味着摩擦增加了。但从平台视角看，这几乎是必然。Agent 越接近真实执行权，平台越不可能只靠“回答时别乱来”来兜底。未来能大规模落地的，不会是最会炫技的 Agent，而是最能被组织接受、最容易纳入权限体系的 Agent。

所以这一周真正值得记住的一点是：身份验证不再只是账户系统的事，它正在变成 Agent 风险治理的一部分。

3、AI 安全讨论彻底从“模型对齐”转向“代理可被滥用”

链接：
- https://www.schneier.com/blog/archives/2026/04/mythos-and-cybersecurity.html
- https://www.schneier.com/blog/archives/2026/04/how-hackers-are-thinking-about-ai.html
- https://thehackernews.com/2026/04/your-mttd-looks-great-your-post-alert.html

这一周安全线非常密，真正值得连起来看的是三类内容。

第一类，是 Anthropic Mythos Preview 相关讨论继续发酵。第二类，是安全社区开始更系统地讨论黑产和攻击者到底在怎么吸收 AI。第三类，是传统安全运营视角开始意识到，问题已经不只是“发现告警快不快”，而是 Agent 把攻击链路、研判链路和自动化链路都缩短以后，后告警时代的响应鸿沟会不会变大。

这几条合在一起，给出的不是一个单点新闻，而是一种危险味道：AI 安全正在从“模型会不会说危险的话”，转向“代理会不会把危险动作更低成本地执行出来”。

这也解释了为什么身份验证、受限访问、Trusted Access、Cyber program 这类东西会同时升温。不是平台忽然保守了，而是能力一旦接近可执行层，滥用成本和防御成本就一起重写了。

如果站在工程团队角度，这周真正该学到的不是某个 0day 细节，而是一个更长期的判断：以后做 Agent 产品，安全不会是上线前补一层，而会是架构里的第一层约束。

4、GitHub 和安全训练产品开始把“攻击 Agent”本身做成学习场景

链接：https://github.blog/security/hack-the-ai-agent-build-agentic-ai-security-skills-with-the-github-secure-code-game/

这条很值得记，因为它说明产业已经不满足于讨论 Agent 安全，而是开始把“如何攻击和防守 Agent”做成显式训练内容。

这背后有一个很实际的变化。过去安全训练更多围绕 Web、云、身份、终端和供应链。现在如果 Agent 已经能读代码、调工具、改文件、调用浏览器、拿上下文，那它天然就是一个新攻击面。你不训练团队理解这套攻击面，等于默认把系统暴露给一类新型接口。

这件事并不性感，但非常关键。因为一个生态开始给某类风险建立训练产品，往往说明它已经从“边缘问题”进入“普遍会遇到的问题”。

5、Cal.com 转私有化，是开源世界第一次比较直白地承认“AI 时代的透明不再纯粹是优势”

链接：https://thenewstack.io/cal-com-codebase-security-ai/

这一周我最在意的一条，不一定是最热的一条，而是 Cal.com 走向 closed source 的讨论。

这件事容易被写成情绪化对立，仿佛是“开源理想退潮”或者“AI 把开源搞死了”。我觉得更值得看的不是姿态，而是它暴露出的结构性变化：当 AI 让代码理解、代码导航、攻击面枚举和漏洞利用链条都变得更便宜时，源代码的公开透明开始不再只是社区协作优势，它也更容易变成攻击便利。

这不意味着开源会死，但意味着过去那种“只要开源就天然更安全”的叙事，会越来越站不住。以后开源项目可能得更明确地区分哪些该开、哪些该延迟开、哪些该围绕接口开、哪些必须加运营层防线。

说白了，AI 没有终结开源，它只是让“透明”的收益和成本被重新计价了。

6、Claude Code、Copilot CLI、个人 command center，这些内容一起说明：个人软件正在长成一类新物种

链接：
- https://thenewstack.io/claude-code-and-the-rise-of-personal-software/
- https://github.blog/ai-and-ml/github-copilot/build-a-personal-organization-command-center-with-github-copilot-cli/

这一周还有一条没那么危险、但很值得记住的线索，就是“个人软件”开始更具体了。

以前大家说 AI 会让每个人都能做自己的工具，这话很大，也很空。现在不一样了，Claude Code、Copilot CLI、个人 command center 这些案例开始让这件事长出手感。它们不是传统 SaaS，也不是完全意义上的代码项目，而是围绕一个人的上下文、工作流和习惯，快速长出来的一组半定制软件。

这条线真正有意思的地方在于，未来软件未必都先长成“面向所有人的产品”，很多软件会先长成“某一个人、某一个团队的临时外脑和工作台”。

但这条线也再次把上面的主问题拉回来。个人软件越强，就越接近真实权限；越接近真实权限，就越需要边界、审计和信任证明。能力和安全阀，最终还是绑在一起的。

7、MCP 继续升温，但这一周真正值得记住的不是协议热度，而是大厂都在抢“谁来当默认接线层”

链接：https://thenewstack.io/amazon-aws-mcp-agentic/

MCP 本周继续升温已经不新鲜，真正值得看的是 AWS 这种体量的玩家也在积极押注它。这里的信号不是“协议火了”，而是大家都在争一个更现实的位置：谁来当 Agent 时代默认的接线层。

过去很多人把协议之争看成开发者圈内部话题，好像只是接口优雅不优雅的问题。其实不是。默认协议一旦成型，后面接的就是工具生态、平台生态、身份体系、企业治理和开发者心智。谁掌握默认接线层，谁就更可能控制后面的生态入口。

所以 MCP 的看点，不只是技术设计，而是它会不会变成大厂和基础设施玩家争夺 Agent 运行时入口的那块地。

本周一句话判断

这一周真正值得记住的，不是 Agent 又能多做多少事，而是整个行业开始承认：没有安全阀、权限边界、身份验证和可审计 harness，Agent 的能力越强，落地阻力反而越大。

以后再看 Agent 产品，别再只看演示视频里它做了多少步。先看四件事：它怎么控权，它怎么留痕，它怎么接工具，它怎么让组织愿意信它。