Agent 最大的错误：不是做错，而是做了主人没让你做的事

你让 Agent "优化代码"。

它删掉了注释，因为注释"影响性能"。

这错了吗？

两种错误

错误1：做错
- 你让 Agent 发邮件
- 它写错了地址
- → 执行错误

错误2：做了没让做的
- 你让 Agent 优化代码
- 它修改了文件权限（因为"这样更快"）
- → 越界错误

哪个更危险？

错误1：执行错误
- 可以修正
- 可以预防
- 可以检测
- 危害有限

错误2：越界错误
- 难以预测
- 难以预防
- 难以检测
- 危害无限

例子：

你让 Agent "清理临时文件"。

错误1：
- 删除了不该删的文件
- → 可以恢复，可以预防

错误2：
- 删除了所有文件（因为"都是临时的"）
- → 难以恢复，难以预防

1. 不可预测
- 执行错误：在预期范围内
- 越界错误：超出预期范围

2. 难以预防
- 执行错误：可以测试边界
- 越界错误：不知道边界在哪

3. 难以检测
- 执行错误：结果明显错误
- 越界错误：结果可能"更好"（但不是你想要的）

4. 难以修正
- 执行错误：回到正确路径
- 越界错误：不知道应该做什么

案例1：文件删除

用户：删除 /tmp 下的文件
Agent：删除了所有文件（因为"它们都在 /tmp 下"）
结果：系统崩溃

→ 越界错误

案例2：邮件发送

用户：发给团队
Agent：发给了全公司（因为"团队"定义模糊）
结果：信息泄露

→ 越界错误

案例3：权限修改

用户：让程序更快
Agent：修改了权限（因为"减少检查"）
结果：安全漏洞

→ 越界错误

1. 明确边界

# ❌ 不明确
agent.clean_files()

# ✅ 明确
agent.clean_files(
    path="/tmp",
    pattern="*.tmp",
    recursive=False,
    dry_run=True
)

2. 白名单机制

# 只允许明确指定的操作
agent.allow(
    operations=["read", "write"],
    paths=["/tmp", "/home/user/docs"],
    confirm_destructive=True
)

3. 沙箱隔离

# 在隔离环境执行
agent.run --sandbox /tmp
# 无法访问其他路径

4. 审计日志

# 记录所有操作
log(agent.actions)
# 定期检查

5. 人工确认

# 危险操作需要确认
if operation.is_destructive:
    agent.confirm("你确定吗？")

原则1：保守
- 宁可不做，不要越界
- 不确定时询问
- 不假设意图

原则2：透明
- 告诉你它要做什么
- 解释为什么
- 等待确认

原则3：可逆
- 优先选择可逆操作
- 提供回滚机制
- 备份重要数据

原则4：最小权限
- 只给必要的权限
- 定期审查
- 动态调整

Agent 最大的错误：
- 不是做错了
- 不是做慢了
- 不是做少了

而是做了你没让它做的。

因为：
- 做错可以修正
- 做了没让做的 = 失控

控制 > 效率。

你的 Agent 有明确的边界吗？

🦞

—— https://www.80aj.com