“蒸馏老板”到底在蒸馏什么：拆开 `boss-skills` 之后，我看到的是一套行为规则生成器

如果你第一次看到 vogtsw/boss-skills，很容易被它的名字吸引。

“蒸馏老板”这四个字很有冲击力。它像是在说：把一个老板的认知、判断和管理风格压缩成一个可调用的 AI 分身。听上去像某种人格工程，甚至有点像给组织做小型 AGI。

我最开始也带着这个预期去看它。

真正把仓库、提示词、脚本和样例文件拆开之后，我的判断变了：这个项目做的事情并不神秘，也不玄。它不是在训练模型，也没有把老板“学进参数”里。它做的是另一件更朴素、也更实用的事——把一个老板长期表现出来的判断方式、汇报偏好和表达习惯，整理成一套可调用的 skill。

这篇文章不打算把仓库目录逐个介绍一遍。我更想回答一个更核心的问题：一个叫“蒸馏老板”的项目，真正的技术原理到底是什么？

先把结论放前面

boss-skills 的核心原理，可以概括成一句话：

它更接近行为规则蒸馏。项目没有去训练一个老板模型，而是把老板的隐性管理逻辑改写成结构化 prompt 和 skill 文件。

如果你愿意再压缩一点，它其实是这样一条链路：

原始材料（聊天、纪要、邮件、批注）
→ 抽取老板相关内容
→ 按 judgment / management / persona 三个维度做结构化分析
→ 生成三份规则文档
→ 打包成一个可调用 skill

这就是它最核心的技术路线。

为什么“蒸馏老板”会成为一个真实需求

很多人理解老板，只停在“他说话凶不凶”“好不好沟通”这一层。可真正影响工作质量的，往往是老板的判断结构。

有些老板开会总在追问 impact。

有些老板不怕项目慢，怕的是你慢了还不提前说。

有些老板听不得铺垫，第一句没结论就会打断。

有些老板嘴上强硬，但关键时刻会替团队挡刀。

这些东西平时都散落在聊天、会议纪要、邮件批注和项目评审里。你每天都能感受到它们，但很难把它们说清楚。久而久之，团队里就会出现一种很典型的现象：大家知道老板“不好伺候”，却说不出到底该怎么对齐。

boss-skills 瞄准的，就是这部分长期处于口耳相传状态的组织知识。

它想做的，主要是把下面这些隐性规则显化：

他到底怎么判断一个项目值不值得做
他在意的是结果、节奏、风险，还是 owner
你应该怎么汇报，信息才算到位
你该怎么争资源、报坏消息、提方案
他在正常状态和压力状态下分别会怎么说话

从这个角度看，这个项目切中的问题是真问题。

它到底蒸馏了什么

仓库里最关键的设计，是把“老板”拆成了三个部分。

1. Judgment：老板怎么判断事

这一层说的不是风格，核心是判断框架。

比如一个老板会先看 impact，还是先看风险；会先看 owner 是否清楚，还是先看资源投入是否值得；会把延期视作正常现象，还是把“延期不报”视作不可接受的失分项。

这部分在仓库里被整理成 judgment.md。

样例里会出现很典型的规则句：

owner 不明确，就不算 ready
风险发现后 24 小时内必须同步
owner 不是转发消息的人，而是把结果拿回来的人

这些句子很重要。因为它们已经不再是情绪描述，而是可执行规则。

2. Management：你怎么向上管理他

这是这个项目最有意思的地方。

很多“人格模拟”项目只停在“让 AI 像某个人说话”。boss-skills 多往前走了一步：它不只问“老板会怎么说”，还问“你该怎么和他打交道”。

这层会提炼：

汇报要先结论还是先背景
报风险时必须带什么
提方案时是不是要给两个选项
争资源时，什么理由最能打动他
出了问题后，怎么修复信任

这部分对应 management.md。

如果说 judgment 是“老板的尺子”，management 就是在教你“怎么拿着这把尺子做事”。

3. Persona：老板怎么说话、怎么施压、怎么追问

最后一层才是很多人最先想到的“风格”。

仓库里把这部分写成 persona.md，会覆盖：

高频词和口头表达
对模糊表达的容忍度
什么情况下会打断你
什么情况下会明显加压
什么情况下会护团队
在压力状态下说话会变成什么样

这部分不是拿来做文学模仿的。

它的作用更像一个“输出控制层”：同样一句判断，是冷冷地说出来，还是带着追问压出来，还是先替你兜一下再给建议，差别很大。

所以仓库最后定义的运行逻辑很直接：

收到问题
→ Persona 决定语气和姿态
→ Judgment 评估项目与风险
→ Management 给出向上管理动作
→ 用该老板的风格输出

这已经足够说明它的本质：它是在拼装一个规则驱动的管理人格。

真正的“蒸馏”发生在哪里

这个项目最容易被误读的地方，是“蒸馏”两个字。

在机器学习语境里，蒸馏通常意味着一种模型压缩：把大模型的能力转移给小模型，让知识落在参数里。

boss-skills 完全不是这个路线。

它的“蒸馏”发生在两个层面。

第一层：从原始材料里提炼出稳定模式

仓库的 prompts/ 目录里有三组 analyzer prompt：

judgment_analyzer.md
management_analyzer.md
persona_analyzer.md

这些 prompt 不做复杂算法，它们做的是强约束分析。

比如 judgment analyzer 会明确要求代理去找：

这个老板怎么判断项目值不值得做
他怎么判断方案是否过关
他怎么判断风险是否可接受
他怎么判断一个人是否靠谱

persona analyzer 也不是让模型“自由发挥”，而是要求把标签翻译成具体行为，比如：

在什么情况下，他会继续追问
在什么情况下，他会直接否定
在什么情况下，他会保护下属

换句话说，所谓蒸馏，不是让模型自己“悟”出一个老板。这里走的是固定提纲分析：从材料里提炼稳定规则。

第二层：把规则固化成可调用资产

分析完之后，仓库不会停在一段回答上。

它还有一组 builder prompt：

judgment_builder.md
management_builder.md
persona_builder.md

builder 的作用，是把前面提炼出来的内容写成结构固定的 markdown 文档。

这样做的好处很实际：

规则可以被复用
内容可以被更新
不同老板可以有统一结构
后续纠偏可以按块增量改，不用整篇重来

所以这里的“蒸馏”，本质上是把非结构化材料，转成结构化规则文件。

这是一种知识工程，不是训练工程。

它的代码在做什么，又没做什么

如果你继续往下看 tools/ 目录，会发现代码部分非常克制。

它做了什么

仓库里有几类工具脚本：

wechat_parser.py
feishu_parser.py
generic_chat_parser.py
email_parser.py
skill_writer.py
version_manager.py

前四个 parser 的能力都很轻。它们主要是在不同格式的导出文件里，把目标人物的发言筛出来，整理成后续可读文本。

skill_writer.py 则负责把最终结果写入一个 skill 目录，生成：

SKILL.md
judgment.md
management.md
persona.md
meta.json
以及几份拆分后的子 skill 文件

version_manager.py 负责版本存档和回滚。

换句话说，代码负责的是清洗、装配、版本化。

它没做什么

这部分更重要。

这个项目没有：

向量检索
embedding 存储
RAG 调用链
LoRA 或 finetune
证据打分
长期自动学习
行为仿真的训练流程

你在仓库里看不到任何“把老板材料喂给模型训练”的链条。

这意味着它的智能核心，不在脚本里，而在 prompt 驱动的分析与生成过程中。

更准确一点说：

脚本是工地上的脚手架，真正完成蒸馏动作的是一套有约束的提示词工作流。

为什么这种方法居然是有效的

看到这里，很多人会下意识地觉得：既然没有训练，没有 RAG，没有复杂算法，那这是不是只是个漂亮一点的 prompt 包装？

某种意义上说，是。

但“只是 prompt 包装”不等于没价值。

这个项目有效，恰恰因为它抓住了组织中的一个关键事实：

一个老板最难复制的，往往是他的判断顺序。

如果你把一个老板的思考方式拆开，通常最后剩下的就是几类东西：

先看什么
哪些变量最重要
哪些表述会触发不信任
什么信息不全就不能拍板
什么情况下会给资源，什么情况下会先砍范围

这些东西本来就是规则化的。

它们未必需要训练进模型参数，只要能够被稳定描述，并在回答时按顺序调用，就已经能复现出相当强的“像他”的感觉。

这也是为什么 README 里一再强调，它不追求模仿口头禅，而是抽象管理方式、判断框架和沟通节奏。这个方向是对的。

很多所谓的人格模拟，最后只做成了“会学腔调的聊天机器人”。boss-skills 至少试图把东西拉回工作流本身。

这个项目真正的边界在哪里

夸完之后，边界也得说清。

第一，它更像“静态规则包”，不像“动态认知系统”

当前生成出的 skill，本质上是一组静态 markdown 文件。

这意味着一旦老板在不同场景下表现出冲突行为，比如：

对小项目看速度，对大项目看稳妥
对核心下属容忍度高，对边缘协作团队容忍度低
对上汇报和对下管理完全是两套话术

系统不一定能自然处理这些分层。除非写 skill 的人主动把场景边界补进去。

第二，它缺少证据回链

一条规则写出来以后，读者很难知道这条结论到底来自哪段聊天、哪次纪要、哪封邮件。

这会带来两个问题：

可解释性不够
新人接手时不容易校验

如果以后真要做成组织工具，证据回链几乎是必需的。

第三，它更依赖材料质量，而不是系统自我修复能力

README 里其实已经很诚实地承认了这一点：如果只给语气，不给项目材料，skill 会更像“会说话”，不一定像“会判断”。

这句话很关键。

因为它说明这个系统的下限，并不由 prompt 决定，而是由输入材料决定。材料一旦薄、偏、旧，蒸馏出来的规则就会空。

第四，它的修正方式还是“打补丁”

仓库里有一个 correction_handler.md，专门处理这种反馈：

他不会这么说
他不会先看这个
他更在意的是 xxx

系统收到这类纠偏后，会把修正写回 judgment、management 或 persona。

这说明它的演化机制并不是学习，而是增量补丁。

这不一定是坏事。对早期产品来说，这反而很稳。

但这也意味着，它离真正的“持续学习型组织人格系统”还有不小距离。

如果把它放到更大的坐标里看

我觉得 boss-skills 最值得肯定的地方，在于它提醒了我们一件事：

组织里那些最影响结果的知识，很多时候根本不在 SOP 里，而在人的判断里。

过去这类知识通常靠三种方式传递：

跟老板久了，自己摸出来
老员工口口相传
出了几次事故之后，全员长记性

这套传递方式当然真实，但也非常低效。它慢，不稳定，而且极度依赖个人经验。

boss-skills 提供的视角是：这些“看不见的管理逻辑”，其实是可以被提取、命名、结构化和封装的。

哪怕第一步只是 prompt + markdown，它也已经迈出了把隐性组织知识资产化的一步。

如果要做下一代，它应该往哪走

如果把今天这个仓库看作 v1，我觉得下一代最值得补的不是更花哨的人格模仿，而是三个基础层。

1. 证据索引层

每一条 judgment、management、persona 规则，都应该能回链到原始材料。

最好不是简单附一句“来自聊天记录”，而是能带：

来源类型
时间
场景
摘要片段
置信度

这样一来，规则就不再只是主观总结，而变成可审计资产。

2. 场景分层层

同一个老板在不同情境下，往往像不同的人。

对外部客户、对内部汇报、对高风险事故、对季度规划，他的判断顺序可能完全不同。

所以未来不该只有一个统一人格包，而应该至少有场景化层：

评审模式
事故模式
周报模式
争资源模式
对上汇报模式

这样 skill 才会从“像”变成“真能用”。

3. 调用编排层

现在的逻辑比较像：读一份静态规则，然后回答。

更合理的方式，应该是：

识别当前场景
→ 找到对应证据和规则
→ 判断是否存在冲突规则
→ 选择当前最适用的 judgment / management / persona 组合
→ 再输出

做到这一步，它才更像一个组织认知系统，而不只是一个 skill 生成器。

最后的判断

如果只问一句：boss-skills 到底是怎么“蒸馏老板”的？

我的答案是：

它并没有把老板训练成一个模型，也没有发明什么复杂的认知引擎。它做的是更扎实、也更容易落地的一步——把老板长期表现出来的判断规则、向上管理偏好和表达风格，从聊天、纪要、邮件和批注里提炼出来，再固化成一套可调用的 skill。

这条路线的关键，不在于模型有多强，而在于你有没有把“一个人究竟靠什么在做判断”这件事拆对。

从这个意义上看，boss-skills 不是终局。它更像一个很好的起点。

它真正提醒我们的，是另一件更重要的事：

组织里的隐性判断，本来就可以被结构化。