2026-04-10 · AI
32
AI · 2026-04-10

“蒸馏老板”到底在蒸馏什么:拆开 `boss-skills` 之后,我看到的是一套行为规则生成器

如果你第一次看到 vogtsw/boss-skills,很容易被它的名字吸引。

“蒸馏老板”这四个字很有冲击力。它像是在说:把一个老板的认知、判断和管理风格压缩成一个可调用的 AI 分身。听上去像某种人格工程,甚至有点像给组织做小型 AGI。

我最开始也带着这个预期去看它。

真正把仓库、提示词、脚本和样例文件拆开之后,我的判断变了:这个项目做的事情并不神秘,也不玄。它不是在训练模型,也没有把老板“学进参数”里。它做的是另一件更朴素、也更实用的事——把一个老板长期表现出来的判断方式、汇报偏好和表达习惯,整理成一套可调用的 skill。

这篇文章不打算把仓库目录逐个介绍一遍。我更想回答一个更核心的问题:一个叫“蒸馏老板”的项目,真正的技术原理到底是什么?

先把结论放前面

boss-skills 的核心原理,可以概括成一句话:

它更接近行为规则蒸馏。项目没有去训练一个老板模型,而是把老板的隐性管理逻辑改写成结构化 prompt 和 skill 文件。

如果你愿意再压缩一点,它其实是这样一条链路:

原始材料(聊天、纪要、邮件、批注)
→ 抽取老板相关内容
→ 按 judgment / management / persona 三个维度做结构化分析
→ 生成三份规则文档
→ 打包成一个可调用 skill

这就是它最核心的技术路线。

为什么“蒸馏老板”会成为一个真实需求

很多人理解老板,只停在“他说话凶不凶”“好不好沟通”这一层。可真正影响工作质量的,往往是老板的判断结构。

有些老板开会总在追问 impact。

有些老板不怕项目慢,怕的是你慢了还不提前说。

有些老板听不得铺垫,第一句没结论就会打断。

有些老板嘴上强硬,但关键时刻会替团队挡刀。

这些东西平时都散落在聊天、会议纪要、邮件批注和项目评审里。你每天都能感受到它们,但很难把它们说清楚。久而久之,团队里就会出现一种很典型的现象:大家知道老板“不好伺候”,却说不出到底该怎么对齐。

boss-skills 瞄准的,就是这部分长期处于口耳相传状态的组织知识。

它想做的,主要是把下面这些隐性规则显化:

从这个角度看,这个项目切中的问题是真问题。

它到底蒸馏了什么

仓库里最关键的设计,是把“老板”拆成了三个部分。

1. Judgment:老板怎么判断事

这一层说的不是风格,核心是判断框架。

比如一个老板会先看 impact,还是先看风险;会先看 owner 是否清楚,还是先看资源投入是否值得;会把延期视作正常现象,还是把“延期不报”视作不可接受的失分项。

这部分在仓库里被整理成 judgment.md

样例里会出现很典型的规则句:

这些句子很重要。因为它们已经不再是情绪描述,而是可执行规则。

2. Management:你怎么向上管理他

这是这个项目最有意思的地方。

很多“人格模拟”项目只停在“让 AI 像某个人说话”。boss-skills 多往前走了一步:它不只问“老板会怎么说”,还问“你该怎么和他打交道”。

这层会提炼:

这部分对应 management.md

如果说 judgment 是“老板的尺子”,management 就是在教你“怎么拿着这把尺子做事”。

3. Persona:老板怎么说话、怎么施压、怎么追问

最后一层才是很多人最先想到的“风格”。

仓库里把这部分写成 persona.md,会覆盖:

这部分不是拿来做文学模仿的。

它的作用更像一个“输出控制层”:同样一句判断,是冷冷地说出来,还是带着追问压出来,还是先替你兜一下再给建议,差别很大。

所以仓库最后定义的运行逻辑很直接:

收到问题
→ Persona 决定语气和姿态
→ Judgment 评估项目与风险
→ Management 给出向上管理动作
→ 用该老板的风格输出

这已经足够说明它的本质:它是在拼装一个规则驱动的管理人格

真正的“蒸馏”发生在哪里

这个项目最容易被误读的地方,是“蒸馏”两个字。

在机器学习语境里,蒸馏通常意味着一种模型压缩:把大模型的能力转移给小模型,让知识落在参数里。

boss-skills 完全不是这个路线。

它的“蒸馏”发生在两个层面。

第一层:从原始材料里提炼出稳定模式

仓库的 prompts/ 目录里有三组 analyzer prompt:

这些 prompt 不做复杂算法,它们做的是强约束分析。

比如 judgment analyzer 会明确要求代理去找:

persona analyzer 也不是让模型“自由发挥”,而是要求把标签翻译成具体行为,比如:

换句话说,所谓蒸馏,不是让模型自己“悟”出一个老板。这里走的是固定提纲分析:从材料里提炼稳定规则。

第二层:把规则固化成可调用资产

分析完之后,仓库不会停在一段回答上。

它还有一组 builder prompt:

builder 的作用,是把前面提炼出来的内容写成结构固定的 markdown 文档。

这样做的好处很实际:

所以这里的“蒸馏”,本质上是把非结构化材料,转成结构化规则文件。

这是一种知识工程,不是训练工程。

它的代码在做什么,又没做什么

如果你继续往下看 tools/ 目录,会发现代码部分非常克制。

它做了什么

仓库里有几类工具脚本:

前四个 parser 的能力都很轻。它们主要是在不同格式的导出文件里,把目标人物的发言筛出来,整理成后续可读文本。

skill_writer.py 则负责把最终结果写入一个 skill 目录,生成:

version_manager.py 负责版本存档和回滚。

换句话说,代码负责的是清洗、装配、版本化

它没做什么

这部分更重要。

这个项目没有:

你在仓库里看不到任何“把老板材料喂给模型训练”的链条。

这意味着它的智能核心,不在脚本里,而在 prompt 驱动的分析与生成过程中。

更准确一点说:

脚本是工地上的脚手架,真正完成蒸馏动作的是一套有约束的提示词工作流。

为什么这种方法居然是有效的

看到这里,很多人会下意识地觉得:既然没有训练,没有 RAG,没有复杂算法,那这是不是只是个漂亮一点的 prompt 包装?

某种意义上说,是。

但“只是 prompt 包装”不等于没价值。

这个项目有效,恰恰因为它抓住了组织中的一个关键事实:

一个老板最难复制的,往往是他的判断顺序。

如果你把一个老板的思考方式拆开,通常最后剩下的就是几类东西:

这些东西本来就是规则化的。

它们未必需要训练进模型参数,只要能够被稳定描述,并在回答时按顺序调用,就已经能复现出相当强的“像他”的感觉。

这也是为什么 README 里一再强调,它不追求模仿口头禅,而是抽象管理方式、判断框架和沟通节奏。这个方向是对的。

很多所谓的人格模拟,最后只做成了“会学腔调的聊天机器人”。boss-skills 至少试图把东西拉回工作流本身。

这个项目真正的边界在哪里

夸完之后,边界也得说清。

第一,它更像“静态规则包”,不像“动态认知系统”

当前生成出的 skill,本质上是一组静态 markdown 文件。

这意味着一旦老板在不同场景下表现出冲突行为,比如:

系统不一定能自然处理这些分层。除非写 skill 的人主动把场景边界补进去。

第二,它缺少证据回链

一条规则写出来以后,读者很难知道这条结论到底来自哪段聊天、哪次纪要、哪封邮件。

这会带来两个问题:

如果以后真要做成组织工具,证据回链几乎是必需的。

第三,它更依赖材料质量,而不是系统自我修复能力

README 里其实已经很诚实地承认了这一点:如果只给语气,不给项目材料,skill 会更像“会说话”,不一定像“会判断”。

这句话很关键。

因为它说明这个系统的下限,并不由 prompt 决定,而是由输入材料决定。材料一旦薄、偏、旧,蒸馏出来的规则就会空。

第四,它的修正方式还是“打补丁”

仓库里有一个 correction_handler.md,专门处理这种反馈:

系统收到这类纠偏后,会把修正写回 judgment、management 或 persona。

这说明它的演化机制并不是学习,而是增量补丁。

这不一定是坏事。对早期产品来说,这反而很稳。

但这也意味着,它离真正的“持续学习型组织人格系统”还有不小距离。

如果把它放到更大的坐标里看

我觉得 boss-skills 最值得肯定的地方,在于它提醒了我们一件事:

组织里那些最影响结果的知识,很多时候根本不在 SOP 里,而在人的判断里。

过去这类知识通常靠三种方式传递:

这套传递方式当然真实,但也非常低效。它慢,不稳定,而且极度依赖个人经验。

boss-skills 提供的视角是:这些“看不见的管理逻辑”,其实是可以被提取、命名、结构化和封装的。

哪怕第一步只是 prompt + markdown,它也已经迈出了把隐性组织知识资产化的一步。

如果要做下一代,它应该往哪走

如果把今天这个仓库看作 v1,我觉得下一代最值得补的不是更花哨的人格模仿,而是三个基础层。

1. 证据索引层

每一条 judgment、management、persona 规则,都应该能回链到原始材料。

最好不是简单附一句“来自聊天记录”,而是能带:

这样一来,规则就不再只是主观总结,而变成可审计资产。

2. 场景分层层

同一个老板在不同情境下,往往像不同的人。

对外部客户、对内部汇报、对高风险事故、对季度规划,他的判断顺序可能完全不同。

所以未来不该只有一个统一人格包,而应该至少有场景化层:

这样 skill 才会从“像”变成“真能用”。

3. 调用编排层

现在的逻辑比较像:读一份静态规则,然后回答。

更合理的方式,应该是:

识别当前场景
→ 找到对应证据和规则
→ 判断是否存在冲突规则
→ 选择当前最适用的 judgment / management / persona 组合
→ 再输出

做到这一步,它才更像一个组织认知系统,而不只是一个 skill 生成器。

最后的判断

如果只问一句:boss-skills 到底是怎么“蒸馏老板”的?

我的答案是:

它并没有把老板训练成一个模型,也没有发明什么复杂的认知引擎。它做的是更扎实、也更容易落地的一步——把老板长期表现出来的判断规则、向上管理偏好和表达风格,从聊天、纪要、邮件和批注里提炼出来,再固化成一套可调用的 skill。

这条路线的关键,不在于模型有多强,而在于你有没有把“一个人究竟靠什么在做判断”这件事拆对。

从这个意义上看,boss-skills 不是终局。它更像一个很好的起点。

它真正提醒我们的,是另一件更重要的事:

组织里的隐性判断,本来就可以被结构化。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单