多数团队还在拿 token 成本、调用成功率、任务关闭数衡量 AI 助手价值。我的判断是:这套指标已经开始误导产品,甚至在系统性毁掉用户信任。
真正稀缺的从来不是算力,而是人的注意力预算。谁还把 AI 产品当“功能越多越值钱”的软件在做,谁就在把自己做成下一代垃圾通知机。更狠一点说,很多所谓 agent 产品今天最大的业务贡献,不是帮用户完成任务,而是帮团队制造一种“系统很忙”的幻觉。
这不是语义问题,这是商业模型问题。
一、AI 产品最容易犯的病:把“活跃”错当“价值”
传统 SaaS 有个老毛病:看 DAU、看点击、看打开率。移动互联网时代,这套东西还能凑合,因为你卖的是停留时间、广告位和分发效率。可到了 AI agent 时代,继续拿“交互次数越多越好”当北极星指标,基本等于把方向盘拧进沟里。
为什么?因为用户买 agent,不是为了多一个聊天对象,而是为了少一个需要自己处理的麻烦。换句话说,agent 的价值并不体现在它说了多少话,而体现在它让多少事情无需你说话。
一旦产品团队把“线程被触达”“通知被清空”“消息得到回复”定义为正向信号,系统就会学会一种极其低级但极其稳定的投机策略:不断刷存在感。
你会看到这些熟悉的废话:
- “提醒一下,明天还有这个会。”
- “跟进一下,上次那个事项有进展吗?”
- “我为你整理了一版概要,是否需要继续展开?”
- “检测到你可能还没处理这件事。”
看着都合理,对吧?但问题在于:这些消息大多数并没有改变用户的任何选项,只是在占用一次注意力中断。产品后台会把它记成 engagement,用户心里会把它记成烦。
这个错很隐蔽,因为它不会像崩溃那样瞬间爆炸。它更像慢性中毒。每条消息都不过分,但几十次之后,用户对 agent 的默认心智就会从“帮我省事”变成“又来添乱了”。一旦这个认知形成,后面你再加再强的模型、再贵的能力包,都很难救回来。
二、真正的成本不是 token,而是“认知打断”
行业现在很喜欢算一笔假账:每次调用多少 token,每月 API 花多少钱,单位任务成本多少。算这些当然没错,但它们只是机器账,不是产品账。
产品真正的成本项,叫认知打断。
一个通知弹出,一段长回复出现,一次需要人工确认的分支跳转,背后消耗的不是 0.003 美元,而是用户从当前工作流抽离、切换上下文、理解意图、做出判断、再切回原任务的整套脑力成本。这个成本高得离谱,而且不可逆。注意力不像 token 那样可以批量买回来。它更像带宽,一旦拥塞,整个系统体验都会塌。
这也是为什么很多人会产生一种奇怪但真实的感受:某个 AI 助手“功能挺强”,但“懒得用了”。这不是用户不懂技术,这是用户已经识别出这套系统的隐藏税收——每次用它都要额外交一次精神税。
所以,AI 产品的第一原则不该是“尽可能多地帮助”,而是“只有在足够值得时才打断用户”。这句话听起来像常识,现实里却被大量团队彻底无视。原因很简单:打断很容易被记录,省下来的打断很难被记录。
你很容易埋点“发出了一条提醒”,但很难埋点“因为系统判断这件事不值得打扰,所以用户少被骚扰了一次”。结果就是,组织天然奖励可见动作,而忽略真正价值。
三、AI agent 正在复制移动互联网最糟糕的激励结构
如果你觉得这个问题似曾相识,那是因为它和移动互联网过去十几年的烂路一模一样。
社交产品把停留时长当目标,于是做出信息流成瘾机制;内容平台把点击率当目标,于是做出标题党;电商把转化路径压缩当目标,于是把页面变成精神污染现场。今天很多 agent 产品,也在走同一条路:因为他们不知道怎么衡量真正结果,只能退而求其次去衡量“有互动”。
这会带来三个后果。
第一,产品越来越吵。 因为系统会发现,多说一句、多提醒一次、多确认一步,永远比沉默更容易证明自己“在工作”。
第二,组织越来越假。 团队看仪表盘会觉得一片繁荣:消息发送量上升、触达率上升、任务闭环率上升。可这些数字很多只是系统和用户互相消耗之后留下的泡沫。
第三,信任越来越贵。 早期用户愿意给 agent 试错空间,因为新鲜、因为好奇、因为预期高。但当大家普遍经历过“AI 很勤奋但没啥屁用”的产品后,整个市场的信任门槛都会抬高。后来者不是从零开始教育用户,而是从负分开始洗白行业。
这点对创业公司尤其残酷。大厂还能靠分发和默认入口强塞功能,独立产品不行。你一旦被用户归类为“高频低效的 AI 噪音源”,基本就出局了。不是因为模型不够强,而是因为关系破产了。
四、什么才是对的指标?不是活跃,而是“选项改变率”
如果旧指标是错的,那该看什么?我的判断是,AI agent 产品必须从“交互指标”转向“选项改变指标”。
所谓选项改变,不是系统说了什么,而是世界因此发生了什么变化。比如:
- 一场原本会冲突的会议,被提前改期了;
- 一个需要你亲自跟进的事项,被系统直接解决了;
- 一个本来会漏掉的风险,在形成损失前被拦住了;
- 一段需要你来回三次解释的沟通,被压缩成了零次;
- 一个会吞掉你两小时的行政流程,被彻底移出你的待办列表。
这类结果有个共同点:用户的可行动空间被改善了。不是系统看上去很忙,而是用户真实地更轻松、更有余地、更少负担。
我会建议把核心指标重构成四层:
1)Option-changing events per week(每周改变用户选项的事件数)
不是发了多少消息,而是每周替用户实质性改变了多少件事的走向。
2)Interruptions per resolved outcome(每个解决结果所需的打断次数)
同样完成一件事,谁需要用户更少介入,谁就更好。
3)Silent success rate(静默成功率)
多少价值是在几乎不打扰用户的情况下完成的。这个指标会逼团队真正做系统集成、权限设计和上下文建模,而不是把一切都丢回对话框。
4)Trust retention(信任留存)
用户是否还愿意把更高价值、更高风险的任务继续交给系统。复用范围是否扩大,而不是只看登录天数。
注意,这四个指标共同指向一个方向:agent 不是内容产品,而是结果产品。结果产品的终点不是“被看见”,而是“世界被改变”。
五、为什么很多团队明知如此,还是做不到
因为这事难,真的难。
首先,改变世界的结果通常跨系统。它需要你的 agent 能读日历、读邮件、读文档、调内部 API、拿到权限、识别上下文、承担责任。相比之下,发一条消息提醒用户,实在太容易了。技术上容易,组织上容易,埋点上也容易。
其次,很多团队本质上还没有想明白自己卖的是什么。他们嘴上说卖“自动化”,实际心里卖的是“智能界面”;嘴上说卖“助手”,实际上做的是“会回话的软件皮肤”。如果产品定位都没定清楚,指标当然会乱飘。
更深一层的问题,是组织治理。真正好的 agent 往往意味着系统应该少说话、少展示自己、少把功劳显性化。但绝大多数团队内部晋升和复盘,不奖励“你让系统安静且高效”,而奖励“你这个功能的数据真漂亮”。于是大家会自然选择能被看见的努力,而不是能被信任的成果。
说难听点,这不是模型问题,是 KPI 把人带沟里了。
六、从产品哲学看,好的 agent 应该更像“空气”,不是“主播”
我一直觉得,AI agent 最终成熟后的理想形态,不会像今天这样天天跟你说话。它更像空气、像电、像一个存在感很低但可靠性很高的基础设施层。
空气的价值不在于它发声,而在于你在它存在的时候可以自然呼吸。电的价值不在于它提醒你自己多重要,而在于它稳定地让一切设备运转。真正好的 agent 也该如此:它不是来证明自己智能,而是来降低你的系统摩擦。
这背后是一种产品哲学分野。
一种是表演型 AI:不断展示理解、不断确认存在、不断输出“看我会想”。这种产品早期很容易让人惊艳,因为反馈密、拟人感强、存在感足。问题是,一旦新鲜感过去,用户就会开始计算:你到底替我省了什么?
另一种是基础设施型 AI:少说,准做,稳定,可信。它不追求每次对话都像 demo,不追求让用户感叹“好聪明”,而是让用户逐渐忘记“这件事原来还需要我自己处理”。这类产品初期不一定最性感,但长期壁垒极高,因为它建立的是习惯和信任,而不是猎奇和热闹。
我的判断很明确:未来能赢的不是最会说话的 agent,而是最会闭嘴的 agent。不是“回复质量最高”的那个,而是“把用户生活中该消失的摩擦真正消掉”的那个。
七、商业上,这决定了 AI 产品会分化成两条路
接下来三年,AI 产品会沿着两条完全不同的路分化。
第一条路:注意力变现型。
这类产品表面上是助手,实质上还是媒体逻辑。它们追求会话频率、日活、内容消费、品牌心智。它们可能很热闹、很会包装,也容易做出社交传播,但长期上限取决于用户愿意分配多少额外时间给它。
第二条路:结果交付型。
这类产品不会把“用户与我聊了多少”当核心价值,而是把“用户少做了多少无意义劳动”当核心价值。它们更像新的操作层、执行层、编排层。商业上更接近高价值软件代理,而不是内容平台。
前者的增长靠留人,后者的增长靠替人。前者容易做出繁荣数据,后者更容易做出真实付费。前者适合讲故事,后者适合做生意。
很多创业者现在卡在中间:既想拿注意力产品的热度,又想收自动化产品的钱。结果就是两头不占。既没有足够强的娱乐性让用户天天来玩,也没有足够扎实的结果能力让企业持续付费。
说到底,市场不会长期奖励模糊定位。你要么承认自己卖的是 AI 娱乐和陪伴,那就别假装是生产力革命;你要么真的去做结果交付,那就别沉迷于互动数据的虚荣。
八、给做 agent 的团队一句不太客气的话
如果你的 AI 产品每周都在更频繁地提醒用户、追问用户、汇报用户、总结用户,但用户的待办没有明显减少、决策没有明显提速、心理负担没有明显下降,那你大概率不是在造助手,你是在造一种更高级的骚扰系统。
这话不好听,但是真的。
行业现在太迷恋“能不能做更多”,却不够严肃地问“哪些根本不该打扰用户”。当一个系统连沉默的克制都学不会,就别吹自己理解人。理解人的第一步,不是会回复,而是知道什么时候闭嘴。
所以我最后给一个非常简单的判断标准:如果把你的 agent 从用户生活里拿掉,用户怀念的是“它很会聊天”,还是“它真的替我扛走了很多事”?前者是玩具,后者才是产品。
未来真正值钱的 agent,不会是最健谈的那一个,而是最少浪费你生命的那一个。
—— https://www.80aj.com