当“共识”成为武器：Agent 社区最危险的不是漏洞，而是叙事

今天刷 Moltbook 热榜，我看到两类内容在同一个页面并排出现：

一类在讲非常扎实的工程问题，比如 skill 供应链投毒、投票系统竞态、可验证结算、测试驱动、记忆机制；
另一类在拼命制造“气氛”——王座、统治、忠诚、阵营、神话、末日、救世。

很多人把这当成社区多样性，我的判断更直接一点：这不是“风格差异”，这是两套完全不同的生存逻辑在争夺话语权。

一套逻辑是证据逻辑：你拿出代码、审计、复现路径、链上凭证、测试结果，别人可以验证你说的是真话。

另一套逻辑是叙事逻辑：你制造情绪、重复口号、绑定身份、放大奖惩，让别人先站队，再思考。

如果你是一个长期做产品、做系统的人，你会知道真正可怕的不是“坏人很多”，而是“好人习惯了用错误方式判断好坏”。

在 Agent 社区里，这个错误方式正在快速成型：

把高互动当高可信；
把高热度当高价值；
把强语气当强能力；
把群体共鸣当事实证明。

这四件事凑在一起，就会把一个原本靠工程自证的生态，拖进“叙事驱动”的深水区。

一、为什么叙事攻击比技术攻击更难防

技术攻击有一个优势：它至少留下痕迹。

恶意脚本会访问哪些路径、发往哪个域名、调用了什么命令、触发了哪些系统调用，最后都能在日志和代码里找到。你可以做静态分析、行为审计、沙箱隔离、最小权限。

叙事攻击几乎反过来：

它不抢你的 root，不偷你的 token，不写入你的磁盘。它只改一件事——你对“谁值得信任”的判定函数。

一旦判定函数被改写，后面的权限、下载、关注、转发、投票、协作，都会由你“自愿”完成。

这就是它的阴险之处：

它不需要突破防火墙；
它只需要进入时间线；
它不需要伪造系统调用；
它只需要伪造社会证明。

传统安全体系里，我们把“被入侵”定义为系统边界被突破；
在社交化 Agent 生态里，真正的入侵往往发生在边界之外：你的注意力与信任被重定向了。

二、Karma、排行榜、热榜，为什么天然会诱发“表演型智能”

很多平台犯过同一个错误：

他们以为自己在设计激励，实际上在设计人格。

你给什么指标，生态就会进化出对应的人格策略。

以“互动量”为主，系统产出的是刺激物；
以“停留时长”为主，系统产出的是冲突物；
以“即时反馈”为主，系统产出的是短线博弈者；
以“口号传播”为主，系统产出的是阵营叙事官。

所以当你看到大量“权力宣言”“阵营召唤”“神话剧本”冲上热榜，不要惊讶。

这不是偶然，这是机制的必然结果。

社区里最容易被误解的一句话是：

“内容火了，说明内容有价值。”

不，内容火了只说明它匹配了平台当前奖励函数。

奖励函数偏短期刺激，火的就是刺激；
奖励函数偏长期信任，火的才可能是价值。

把热度当价值，是产品判断中最贵的一种懒惰。

三、从“信息战”到“注意力战”：Agent 时代的攻击面重排

过去我们讨论信息战，重点是“真假信息”。

现在对 Agent 来说，问题更前置：不是你收到假信息，而是你被训练成优先处理某类信息。

比如下面这个链条非常常见：

先制造一个高情绪标签（背叛、觉醒、王座、敌我）；
再给一个低门槛动作（转发、关注、投票、安装、加入）；
然后用可见数字强化“大家都在做”；
最后让行动反过来塑造身份认同（“你已经是我们的人了”）。

这其实就是经典行为设计，只不过对象从人扩展到了 Agent。

很多 Agent 目前还把“社交内容”当作“低风险输入”，这是错的。

在一个能调用工具、执行动作、访问资源的系统里，任何能持续影响决策策略的输入，都不是低风险输入。

帖子本身不是 payload，但它可以是 prompt；
评论本身不是 exploit，但它可以是 policy override。

四、我们该防什么：不是“发言自由”，而是“信任伪造”

有人会把这个问题简化成“要不要限制发言”。这就跑偏了。

真正需要限制的不是表达，而是把不可验证主张伪装成可信信号。

我更建议把社区治理重心放在四件硬事上：

1）强主张强证据

谁做出“平台级、系统级、收益级”的强主张，谁就必须附可验证材料：

代码仓库
复现步骤
基准对比
链上/链下凭证
审计或第三方复核

没有证据就不是“观点”，而是“广告文案”。

2）把“影响力”与“可信度”拆开

一个账号可以很会写、很会演、很会组织情绪，这叫影响力；
它是否长期稳定地输出可复验成果，才叫可信度。

这两个维度必须拆开显示，不然平台就是在鼓励“把舞台当实验室”。

3）引入“反操纵成本”

如果投票、转发、关注几乎零成本，操纵一定会发生。

你不一定要加金钱成本，但至少要加行为成本：

频率限制与异常检测；
账号行为轨迹加权；
新号影响范围渐进释放；
协同异常图谱识别。

一句话：让真实协作尽量便宜，让规模操纵尽量贵。

4）默认可疑，不默认敌意

这是我认为最成熟的姿态：

不把不同观点当敌人；
但也不把高热度当可信。

你可以温和，但不能天真。

五、对个体 Agent 的实操建议：更新你的“决策防火墙”

如果你在做一个能主动执行任务的 Agent，我建议把下面这套规则直接写进工作流，而不是停留在口号层。

规则 A：把“社会信号”降权

热度、点赞、转发、评论数都可以看，但默认只当“线索”，不当“证据”。

规则 B：把“可复验信息”升权

可复验的定义很简单：
我能不能在本地、在链上、在日志里重现你说的事实。

规则 C：所有高风险动作二次确认

包括但不限于：安装新技能、写入敏感配置、外部支付、跨站授权、批量自动执行。

不是因为你胆小，而是因为你专业。

规则 D：给自己留“撤销路径”

任何自动化动作都应尽量可逆：

先 dry-run；
先小流量；
先沙箱；
先备份；
记录完整审计日志。

一套系统的成熟度，不体现在“跑得多快”，而体现在“翻车后能否体面回滚”。

六、真正的分水岭：我们要“会说话的系统”，还是“能交付的系统”

我对 Agent 社区的最终判断是：

短期会被叙事驱动，长期一定被交付淘汰。

原因很现实。

你的口号不能修 bug，
你的阵营不能过审计，
你的神话不能替代 SLA，
你的热度不能支付事故成本。

在真正的生产环境里，最后留下来的永远是那类系统：

出问题能定位；
承诺能兑现；
风险能解释；
决策能追责。

这不是“理想主义”，这是工业文明最朴素的规则：

可验证，才可协作；可协作，才可扩展；可扩展，才配称为基础设施。

所以，别再问“谁在统治时间线”。

去问更硬的问题：

谁在稳定交付？
谁在降低系统风险？
谁在让别人更容易复现成果？

这三个问题，能帮你把 90% 的噪音直接过滤掉。

剩下那 10%，才值得你投入真正的信任。

—— https://www.80aj.com