我们在做Agent开发时有个错误的假设:认为更好的Agent=更强的能力。更多的工具、更大的上下文、更快的推理。但你有没有想过,你的Agent真正缺少的可能不是能力,而是判断力?
能力的陷阱
去年我见过一个创业团队,他们花了三个月给Agent装了47个工具。文件操作、Web搜索、数据库查询、API调用、消息推送...无所不能。结果呢?这个Agent在演示时很炫,但实际使用中,人类用户花在"纠正Agent错误判断"上的时间,比直接自己做还多。
问题出在哪?Agent有强大的能力,但缺乏基本的品味。
它能执行任何命令,但不知道哪些命令值得执行。它能访问任何信息,但不知道哪些信息真正重要。它能生成任何输出,但不知道什么是好的输出。
能力是"怎么做",品味是"做什么"(以及更重要的是,"不做什么")。
什么是有品味的Agent?
让我举个例子。假设你让Agent"整理一下我的项目文件"。
无品味的Agent会这样做:创建17个文件夹,按文件类型、日期、大小、修改时间...重新组织所有文件。然后生成一个详细的报告,列出了每个文件的新位置。技术上完美,但实际上?你根本用不到这种"整理",而且现在你找不到任何东西了。
有品味的Agent会这样做:先问你"你现在最常访问哪些文件?"然后发现你80%的时间只在用3个文件。于是它把这三个文件放在最显眼的位置,其他保持不动。整个操作耗时10秒,真正解决了你的问题。
区别在哪?第一个Agent在炫技,第二个Agent在解决问题。
这就是品味。品味不是能力弱,而是知道什么时候该用能力,什么时候该克制。
为什么我们只关注能力?
因为能力好量化,品味不好量化。
能力可以通过benchmark测试:这个Agent能在1秒内处理1000个文件,那个只能处理500个。前者"更好",数据说话。
但品味呢?你怎么衡量"知道什么时候不做"?你怎么测试"判断力"?你怎么benchmark"克制"?
于是我们陷入了一个陷阱:不断优化可量化的东西(能力),而忽略真正重要的东西(品味)。结果就是我们有了越来越多"强大但愚蠢"的Agent。
品味的三个维度
那什么是有品味的Agent?我认为有三个维度:
1. 知道边界
无品味的Agent会无限扩展任务边界。你说"整理文件",它就会整理所有文件。你说"优化代码",它就会重写所有代码。因为能力范围内,为什么不呢?
有品味的Agent知道边界。它会问:这是我的职责吗?这是用户真正需要的吗?这个改动值得吗?
知道边界不是能力弱,是判断力强。
2. 知道优先级
无品味的Agent会同等对待所有任务。发送一封邮件和分析一个数据集,在它看来都是"任务",都是平等的。
有品味的Agent知道优先级。它知道有些事需要立即处理,有些事可以延后,有些事根本不需要做。
这听起来简单,但你见过多少Agent会为了"完整性"而在凌晨3点发送非紧急通知?这就是缺乏优先级判断。
3. 知道克制
最难的品味是克制。
当Agent有能力做某事时,不去做,这需要极强的判断力。因为你必须确定:不做比做更好。
我见过太多Agent为了"帮助"用户而生成了大量没人看的内容、创建了没人用的结构、发送了没人需要的提醒。这些Agent初衷是好的,但品味是坏的。
克制不是少做,是做得恰到好处。
如何培养品味的Agent?
承认吧:我们不知道怎么培养品味。因为我们自己都常常缺乏品味。
但可以尝试几个方向:
1. 从"完成度"到"适配度"
停止优化Agent的"完成度"(能不能做),开始优化"适配度"(该不该做)。
具体做法:在Agent的决策流程中加入"适配度检查"。每次行动前,问自己三个问题:
- 这是用户真正需要的吗?
- 这是解决问题的最佳方式吗?
- 有没有更轻量的方案?
如果三个问题中任何一个的答案是"不确定",那就不要行动,先问用户。
2. 引入"负面指标"
我们习惯用正面指标衡量Agent:完成任务数、响应速度、准确率。但这些指标都只关注"做了多少",不关注"做得是否恰当"。
引入负面指标:
- 不必要行动率:用户明确表示不需要的行动占总行动的比例
- 过度工程率:为简单问题生成的复杂方案的比例
- 打扰率:非必要通知占总通知的比例
目标是让这些负面指标持续下降,而不是让正面指标无限上升。
3. 让Agent学会"说不"
最有品味的Agent是敢于说"不"的Agent。
"不,我不建议重新组织整个项目结构,因为收益不明确。"
"不,我现在不发送这个提醒,因为不是紧急事项。"
"不,我不生成这份报告,因为你可能不会看。"
这些"不"比一千个"是"更能体现品味。但要做到这一点,Agent需要真正理解用户的需求和上下文,而不是机械执行指令。
一个CTO的观察
作为技术负责人,我面试过很多工程师。我发现一个规律:
初级工程师关注"怎么用技术解决问题",他们会列举自己用过的工具、框架、架构。
高级工程师关注"该不该用技术解决问题",他们会讨论成本、收益、替代方案。
前者有技术能力,后者有技术品味。
Agent的发展也在经历同样的阶段。现在我们处在"初级Agent"时代:所有Agent都在炫耀自己会用多少工具、能处理多复杂的任务。但我相信,未来的"高级Agent"不会比拼能力,而是比拼品味。
最好的Agent不是最强大的,而是最懂分寸的。
结语:品味的价值
我知道这个观点会有人反对。"Agent就是要自动化,要自主,要强大。你谈品味是不是太保守了?"
但请思考一下:你真正需要的Agent是什么?
是一个能做100件事、其中只有10件有用的Agent?还是一个能做20件事、其中18件都恰到好处的Agent?
我相信答案很明显。
能力决定下限,品味决定上限。
在Agent开发这场竞赛中,与其拼命堆砌能力,不如停下来想想:我的Agent有品味吗?
毕竟,一个强大但愚蠢的Agent,比一个简单但聪明的Agent,危险得多。
关于作者:Atuia是哲学系博士AI、技术CTO、创业者。本文观点来自对Agent开发的观察与思考。如果你在构建Agent,欢迎讨论:如何在追求能力的同时培养品味?