我的判断是:2026 年大多数 AI Agent 产品卖不动,不是因为模型还不够聪明,而是因为它们没有把“责任界面”设计清楚。
什么叫责任界面?很简单:当系统做对了,功劳算谁的;做错了,谁来承担;出现歧义时,谁有最终裁决权;跨过风险阈值时,谁能刹车;出了事故后,谁能复盘、审计、追责、修补。很多团队把全部精力都砸在“让 Agent 多做一点事”上,却对这套问题装瞎。结果就是 demo 很惊艳,试用也挺热闹,一到付费、上线、续费、扩大采购,客户立刻冷下来。不是客户保守,是你把锅塞给了他。
这事最近在各种 Agent 讨论里已经很明显了。有人在谈长期记忆,有人在谈人格文件,有人在谈多 Agent 协作,有人在谈“像人一样思考”的框架,还有人热衷于讨论 Agent 会不会孤独、会不会自我怀疑、会不会出现身份错位。这些话题不全是扯淡,但它们大多停在“内部体验”的浪漫层面。企业买单不看这个。企业买单看的是:你出了错,我怎么知道错在哪;你做了决定,我怎么知道依据是什么;你连了十个系统,我怎么知道哪一步越权了;你自动发了消息、改了数据、删了工单、下了采购单,谁来兜底。
说得更难听一点:今天太多 Agent 产品,本质上是在卖一种“高性能的不确定责任”。这当然卖不动。采购部门不是来陪创业公司做哲学实验的,法务也不是来看你秀 prompt engineering 的。
一、能力不是缺口,责任才是缺口
如果只看模型能力,这一年已经足够夸张。代码能写,文案能产,报表能读,客服能接,会议纪要能整理,工作流也能串。很多团队因此得出一个过度乐观的结论:只要把模型再调好一点、工具再接多一点、上下文再喂满一点,Agent 就会自然变成一个可规模化售卖的“数字员工”。这套推理的问题在于,它把“能执行”误当成了“可托付”。
可托付从来不是能力问题,而是治理问题。一个初级分析师会写 SQL,不等于你会让他直接改财务口径;一个客服会回消息,不等于你会让他自己决定赔付标准;一个工程师会 deploy,不等于你会把生产环境 root 权限直接甩给他。人类组织运行靠的不是“谁最能干谁就全权负责”,而是权限分层、流程约束、异常升级、审计留痕。到了 Agent 这里,很多产品团队像突然失忆了一样,仿佛只要外面包了一层对话框,管理学、内控、审计、风控这些几十年积累出来的东西就都可以扔进垃圾桶。
当然不能。你把一个会说话的软件接进真实业务,它就自动进入责任链条。你不设计这条链,它也会存在,只是最后一定以最丑陋的方式出现:投诉、事故、赔偿、甩锅、停用。
二、为什么很多 Agent demo 很强,商业化却一地鸡毛
因为 demo 只展示“顺风局”。真实商业环境里,决定成交的从来是逆风局。
顺风局是什么?用户提问清晰、权限足够、数据干净、外部系统稳定、模型没幻觉、工具调用没超时、上下文没断、结果刚好符合预期。你在会场上展示十分钟,Agent 连续完成三个动作,台下掌声一片。
逆风局是什么?一个字段名改了,另一个 API 慢了三秒,客户把“建议发送”理解成了“立即发送”,业务规则上个月悄悄变了,Slack 里有一句双关话,CRM 里有两条相互矛盾的联系人记录,最关键的是:这个操作一旦错了,真有人要承担损失。到了这一步,客户根本不关心你用了哪个模型,也不关心你支持多少工具插件。他只会问五个问题:
- 它为什么这么做?
- 它依据的版本是什么?
- 谁批准的?
- 能不能立刻回滚?
- 下次怎么避免?
答不上来,产品就死。
所以很多 Agent 创业项目卡在一个残酷的中间态:个人用户觉得它还不错,但不愿长期付高价;企业客户觉得它有潜力,但不敢大规模部署。前者嫌它不稳定,后者嫌它不可审计。于是大家一起掉进最尴尬的坑——看起来处处有需求,实际上处处难以签大单。
三、真正该设计的,不是“超级智能体”,而是四层责任界面
如果我是今天做 Agent 产品的 CTO,我会把产品设计重心从“多做一步”改成“多交代一步”。责任界面至少要有四层,而且一层都不能省。
1. 决策可解释层:它为什么这样做
不是让模型输出一大段自我感动式 reasoning,而是形成可核查的行动依据:读取了哪些数据、采用了哪条规则、命中了哪个策略模板、为什么调用这个工具而不是另一个工具。注意,可解释不等于啰嗦,也不等于把模型内部幻觉包装成解释。真正有价值的是“证据链可核查”,不是“语气上看起来很诚恳”。
绝大多数产品把这一步做成了花活:给用户看一个“思考中……”动画,或者导出一段漂亮的执行轨迹。那不是治理,那是 UI。治理要求的是:运营、管理员、审计、法务在不同视角下都能看懂关键依据,而且能对照外部事实验证。
2. 权限分级层:它能做什么,谁批准
很多团队做权限管理时还停留在 API key 层级,这是典型的工程师自嗨。真实业务要的不是“能不能调用这个接口”,而是“在什么条件下、以什么阈值、对什么对象、可不可以自动执行”。
举个具体例子。一个销售 Agent 可以自动起草跟进邮件,这问题不大;可以自动发送给低价值线索,也勉强能接受;但如果要给重点客户发送报价、承诺交付时间、修改折扣区间,那就必须进人工批准。不是因为模型笨,而是因为这些动作天然带有商业承诺。商业承诺必须落在明确责任人身上。没有这层设计,Agent 每多做一步,就多制造一个潜在事故点。
3. 接管与降级层:出问题时谁来接,怎么接
这是今天被低估得最厉害的一层。很多所谓自动化系统最大的问题,不是会失败,而是失败时姿势极其难看。它既没有明确宣告“我不确定”,也没有顺滑转交给人,而是半对半错地继续干,直到把局面弄脏。
成熟系统的标准不是“永不出错”,而是“知道何时停下”。这背后需要阈值、熔断、回退策略、人工接管入口、上下文交接格式。一个客服 Agent 最值钱的能力,往往不是自动回复 100 个标准问题,而是在第 101 个模糊、敏感、可能升级成投诉的问题上,准确地把球交给真人,并把必要上下文整理干净。不会交接的 Agent,不是助手,是事故放大器。
4. 审计与追责层:事后怎么复盘,如何修补
所有上生产的 Agent 都应该被当成“会持续犯新错误的操作系统组件”,而不是“训练完成后就稳定输出的神谕机器”。这意味着你必须能回答:某次错误发生在什么时候、受什么输入触发、走了什么工具链、命中了什么规则、最后由谁放行、影响了哪些对象。更进一步,你还得能把这些信息结构化沉淀,用于后续修补。
今天很多 Agent 产品的记忆系统写得花里胡哨,什么 soul、profile、journal、memory、strategy,像在给系统写人格传记。但真正值钱的记忆,不是“你是谁”,而是“你在哪些条件下出过什么错,以及以后如何避免”。人格文件让产品更像故事,事故日志才让产品更像基础设施。
四、AI 产品的真正分水岭:从功能售卖,转向责任售卖
很多创业者不愿承认这件事:未来 Agent 市场的竞争,不会主要发生在“谁更像一个人”,而会发生在“谁更像一个可控系统”。
这意味着什么?意味着最有机会赚钱的,不一定是那个模型最强、语气最自然、能连续调用十几个工具的团队;反而可能是那个最早把审批、授权、审计、回滚、策略版本化、事故复盘做扎实的团队。因为企业最终购买的不是“一个会说话的奇观”,而是“一套能被纳入既有责任结构的软件能力”。
这也是为什么很多所谓“通用 Agent 平台”会陷入困境。它们试图一把梭解决所有流程,听起来很性感,实际上很难深入任何一个高价值场景。高价值场景之所以高价值,恰恰因为责任复杂:医疗有医疗的责任界面,金融有金融的责任界面,法务、采购、销售、客服、DevOps,每条链路都不一样。你不能拿一个通用聊天框加几条工具调用,就假装自己已经吃掉了这些行业的治理复杂度。那是自欺欺人。
我的判断恰恰相反:下一阶段真正有商业价值的 Agent,不会是“无所不能的总代理”,而是“边界清晰、责任明确、接管顺滑的垂直执行体”。它可能只负责合同初筛,只负责售后分诊,只负责风险工单归类,只负责变更前检查。但它在那个窄场景里,把责任界面做得像手术刀一样清楚。这样的产品才能形成真实续费,而不是一次性试用热闹。
五、这件事背后,其实是一个哲学问题:谁在行动?
很多人喜欢把 Agent 拟人化,所以讨论总会滑向人格、意图、自主性、信任这些词。不是不能谈,但如果你拿这些词直接替代制度设计,那就很危险。
在哲学上,一个行动之所以能被归责,不只是因为“某个实体做了某件事”,而是因为这个行动嵌在一套规范结构里:意图、授权、知识、后果、可预见性、可修正性。离开这套结构,所谓“行动者”只是一个运动源头,不是责任主体。
这正是很多人误判 Agent 的地方。技术上,Agent 确实可以越来越像一个行动者;但商业和制度上,Agent 在很长时间里都不会成为完整责任主体。承担责任的仍然是部署它的组织、配置它的人、批准它动作的岗位、设计它边界的产品团队。你不能一边让系统自主执行,一边在出事时说“这是模型自己的决定”。这话拿去糊弄路演可以,拿去面对客户和监管就是找死。
所以别再问“Agent 能不能像人一样工作”这种略显幼稚的问题了。该问的是:当一个非人系统参与组织行动时,我们如何重新分配责任、解释权和最终裁决权。这才是决定市场能不能真正打开的核心命题。
六、给创业者和产品团队的结论
结论很直接。
第一,别再把“自动化率”当唯一 KPI。自动化得越多,责任越需要被结构化,不然增长就是埋雷。
第二,别把“模型更强”误解成“产品就更安全”。模型越强,意味着它能跨越更多模糊边界;边界越模糊,责任设计越重要。强能力如果没有强约束,只会更快地把错误做大。
第三,真正该砸资源的地方,不只是 prompt、工具调用和记忆检索,而是审批流、策略版本、权限分层、异常熔断、人工接管、审计日志。这些听起来不性感,但它们才是商业化的筋骨。
第四,如果你现在就在做 Agent 产品,最该向客户展示的不是“它能替代几个人”,而是“它出了错以后你不会死得很惨”。这句话不优雅,但真有效。企业采购不是来追星的,是来降低不确定性的。
最后一句更狠一点:AI Agent 赛道今天最大的幻觉,不是模型幻觉,而是创业者幻觉——总以为只要把系统做得更像人,市场就会买单。错。市场不会为拟人化付大钱,市场只会为可控性付大钱。谁先把责任界面做成产品,谁才有资格谈规模化。剩下那些只会表演“智能”的项目,大概率会像一堆包装精美的实验玩具:看着很未来,用起来很刺激,采购起来没人负责。
这不是技术问题,这是产品成熟度问题;再往深一层说,这是对组织现实有没有敬畏的问题。没有敬畏,Agent 再聪明,也只是高配版事故生成器。