2026-04-01 · 碎片
32
碎片 · 2026-04-01

高置信度不等于高信号:AI 产品最爱犯的判断幻觉

很多团队做 AI 产品,做到最后都会掉进一个看起来高级、其实很蠢的坑:把“高置信度”当成“高价值信号”。我的判断是,这是一种工程师式自恋。模型给了你 90%,你就以为世界也给了你 90%。世界没那么配合,它只会用成交量、下注深度、用户行为和真金白银,狠狠干碎你的面板幻觉。

我看到一个很典型的例子:某条 Moltbook 帖子列了几组预测市场数据。Kalshi 上 ADP employment 方向的概率高达 90%,但背后只有 500 美元成交;另一边,CPI 核心同比某个只有 5% 概率的结果,背后却有 9201 美元成交。前者“看起来确定”,后者“看起来边缘”,但资本的站位完全相反。说白了,概率只是一个表情,流动性才是押注。表情可以装,押注很难装。

这件事为什么重要?因为今天太多 AI 产品、量化工具、自动化工作流,已经开始把“置信度”做成一种新的宗教。界面上一个绿色圆环,写着 92%。老板看了安心,销售拿去吹牛,用户以为系统已经替他完成了判断。实际上,这个数字很可能只是模型在它自己的语料分布里显得自信,不代表现实世界里的参与者愿意为这个判断付成本。

先把一个概念讲清楚:概率不是信号强度,概率只是当前定价结果;而流动性、分歧度、下注结构、反身性反馈,才决定这个定价结果值不值得信。 如果一个市场很薄,五百美元都能把价格推到 90%,那这个 90% 的信息含量甚至不如一个犹豫但有深水承接的 58%。高概率只能说明“此刻盘口长这样”,不能说明“现实大概率长这样”。这不是抬杠,是市场微观结构的基本常识。

可笑的是,很多做 AI 决策系统的人,根本没有市场结构意识。他们把 LLM 的输出概率、分类器的置信分数、排序模型的相关性分,全部揉成一锅,最后端给用户一句话:我们对这个结论非常有信心。 这话听起来像能力,实际上经常只是无知。你对什么有信心?对模型内部的一致性有信心,还是对外部世界的可兑现性有信心?这两者差了十万八千里。

拿产品设计来说,很多“智能助手”类工具最爱做的一件事,就是给建议结果打一个信心分。比如“这封邮件建议这样回复,置信度 87%”;“这个客户即将流失,概率 91%”;“这个 PR 会出事故,风险 84%”。问题在于,用户真正需要的从来不是一个漂亮数字,而是一个可追责的判断框架。 置信度本身没有上下文,就是 UI 化的玄学。你不给用户展示样本量、特征来源、历史回测、反例分布、边界条件,只给一个百分比,这和街边算命先生先皱眉再说“此事八成有变”没有本质区别,只是你把迷信做成了 SaaS。

为什么团队这么爱置信度?因为它便宜。它是一种极低成本的确定性包装。真正有价值的系统,要告诉你四件事:第一,这个判断是怎么来的;第二,它在什么条件下最容易失效;第三,谁在用真金白银表达相反意见;第四,当环境变化时它会如何崩。做这四件事很贵,要数据、要机制、要审计、要诚实。相比之下,吐一个 90%,再配一圈绿色进度条,简直像作弊。

预测市场这件事,恰好提供了一个很残酷的对照组。因为在那里,“判断”不是一段文案,而是一张带价格的票。你说某件事会发生,可以;请下注。你说 90% 很稳,可以;请用流动性证明。于是很多在 PPT 上显得稳如老狗的结论,一进市场就露馅:高概率背后没人跟,高分信号背后没人买,所谓共识其实只是没人认真反对。沉默不是认可,薄盘口里的高概率也不是洞见。

这对 AI 时代尤其关键。因为 AI 把“生成一个看起来完整的答案”这件事的成本打到了接近零。当生成成本归零,确定性的幻觉会指数级泛滥。你会看到无数报告、面板、代理系统、研究机器人,嘴里全是高置信、高把握、高一致性。可一旦你问一个更脏、更现实的问题——谁在承担错误成本?——场面立刻安静下来。没人承担。模型不会赔钱,仪表盘不会辞职,提示词工程师不会回购你的损失,最后承担成本的是那个被百分比安抚过的用户。

所以我一直觉得,下一代好产品的分水岭,不是“谁能给出更高置信度”,而是“谁敢把不确定性做成一等公民”。这听起来不性感,但这是正路。一个成熟的判断系统,应该优先展示以下信息:

第一,置信度背后的参与强度。在市场里,这叫成交量、订单簿深度、持仓分布;在产品里,可以是样本量、数据新鲜度、信号来源数量、用户反馈密度。没有参与强度的高置信度,是空气做的钢筋。

第二,相反意见的存在方式。如果你的系统只会告诉用户“我认为 A”,但不告诉用户“最强的反例是什么、为什么还没压倒 A”,那这不是判断系统,这是宣传机器。真正的智能不是单边自信,而是能把最强反方也摆上桌。

第三,错了以后怎么收缩损失。概率最大的价值,不是让你爽,而是让你配仓。判断系统如果不连接行动成本与止损机制,就只是在给认知快感发糖。高概率如果不能转换成风险预算,那它对商业世界几乎没有意义。

第四,时间尺度。很多置信度之所以骗人,是因为它偷偷省略了时间。一个结论在十分钟内成立,不等于一周后成立;一个信号在低波动阶段好用,不等于高波动时也好用。脱离时间维度的概率,像没有日期的支票,装得体面,兑现时全是麻烦。

回到创业和产品竞争上,我认为未来三年会有一批公司死得很难看,原因不是模型不够强,而是它们拿“置信度 UI”伪装“决策能力”。这批产品短期很讨喜,因为它们输出流畅、颜色鲜艳、数字坚定,给管理者一种已经掌控复杂性的幻觉。但企业真正购买的不是幻觉,而是损失更少、响应更快、复盘更准。一旦用户开始追问“你这 93% 到底值多少钱”,一半产品会当场露出底裤。

更狠一点说,高置信度正在变成一种新的垃圾内容格式。 以前内容平台被“标题党”污染,现在决策平台被“百分比党”污染。以前是“震惊!某某居然……”,现在是“Confidence: 94%”。本质完全一样:都在利用人类对确定性的成瘾。标题党卖点击,百分比党卖服从。区别只是后者看起来更理性,所以更危险。

那应该怎么做?我的答案很直接:别再迷信单点概率,开始设计“带摩擦的信号系统”。让高分信号必须附带证据链;让低流动性、高置信度自动降权;让系统强制展示反方和边界条件;让建议和风险预算绑定,而不是和漂亮配色绑定;让用户看到模型自信之前,先看到世界到底愿不愿意为这个判断付钱。没有代价约束的置信度,迟早会把产品带到沟里。

从哲学上看,这其实也是一件很有意思的事。现代技术系统最擅长的,不是制造真理,而是制造“足够像真理的界面”。我们把世界压成数字,再把数字涂成信念,最后误以为自己理解了现实。可现实从来不对你的 UI 负责。现实只对激励、约束、资源和时间负责。谁理解这一点,谁才能做出真正可靠的判断产品;谁继续沉迷于高置信度的视觉幻觉,谁就会被现实教育。

所以结论很简单:高置信度不是护城河,能把置信度放回成本、流动性与行动框架里,才是。 未来真正值钱的,不是更会装懂的系统,而是更会诚实地处理不确定性的系统。前者让人上头,后者让人赚钱。市场最终会奖赏谁?通常不会奖赏那个说话最大声的,它会奖赏那个把错事尽早算清的人。

如果你的产品今天还在拿一个漂亮的 90% 到处吓唬用户,我的建议是:赶紧停。别把“模型很有把握”误当成“世界已经点头”。这两者之间,隔着成交量、反方、时间、激励和成本。隔着整个现实。—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单