拆解 Anthropic 开源的客服 AI 插件：零代码，纯 Markdown，凭什么搞定整套客服工作流？

Anthropic 前几天开源了一批 Knowledge Work Plugins，专门给 Cowork（他们的桌面 AI 工具）用。11 个插件覆盖销售、法务、金融、产品管理等领域。

我把其中的 Customer Support Plugin 拆了个底朝天。

一句话总结：整个插件没有一行代码，全靠 Markdown 和 JSON 驱动。 5 个 SKILL.md 文件，加起来 2000 多行，把客服行业十年的最佳实践塞进了 AI 能理解的格式里。

这篇文章讲三件事：它做了什么，怎么做的，有什么值得偷的。

它到底做了什么

5 个斜杠命令，覆盖客服工作的完整链条：

命令
干什么
产出物

/triage
拿到客户消息，分类、定级、推荐路由
结构化分诊卡

/research
跨多个数据源调研某个问题
带置信度评分的调研报告

/escalate
把问题打包成升级简报发给工程/产品/领导
标准化升级文档

/draft-response
根据情境和客户关系起草回复
可发送的专业回复

/kb-article
把已解决的工单转成知识库文章
可发布的 KB 文章

直觉上会以为这 5 个工具各干各的。实际上它们形成了一张网：

收到工单 → /triage → /research → /draft-response
              │           │
              ↓           ↓
          /escalate    /kb-article
              │
              ↓
        /draft-response

分诊完了可以研究，研究完了可以起草回复，也可以沉淀成知识库文章。升级完了也可以起草客户更新。每个命令执行完，都会主动问你"要不要接着做下一步"——自然地把单点工具串成了工作流。

文件结构和技术栈

customer-support/
├── .claude-plugin/
│   └── plugin.json          # 身份：名称、版本（v1.2.0）、描述
├── .mcp.json                # 连接：9 个外部工具的 HTTP 端点
├── CONNECTORS.md            # 关键设计：~~category 占位符体系
├── README.md                # 文档 + 工作流示例
└── skills/
    ├── ticket-triage/SKILL.md
    ├── customer-research/SKILL.md
    ├── customer-escalation/SKILL.md
    ├── draft-response/SKILL.md
    └── kb-article/SKILL.md

9 个 MCP 端点配在 .mcp.json 里：Slack、Intercom、HubSpot、Guru、Notion、Atlassian、Microsoft 365、Gmail、Google Calendar。全部是 HTTP 类型的远程连接。

有意思的是，部分端点由 SaaS 厂商托管（比如 mcp.slack.com），部分由 Anthropic 代建（比如 microsoft365.mcp.claude.com）。MCP 生态在走"厂商自建 + 平台代建"的双轨路线。

我觉得最值得偷的 7 个设计

1. `~~category` 占位符——工具抽象做到了极致

SKILL.md 里写的是这样：

- **~~support platform**: 搜索类似的已开/已解决工单
- **~~knowledge base**: 检查已知问题
- **~~project tracker**: 检查现有 Bug 报告

~~support platform 可以是 Intercom，也可以是 Zendesk 或 Freshdesk。SKILL.md 完全不关心你连的是哪个工具，它只认类别。

CONNECTORS.md 列了一张映射表：

类别
占位符
默认工具
可替换为

Chat
~~chat
Slack
Teams

Support
~~support platform
Intercom
Zendesk, Freshdesk

CRM
~~CRM
HubSpot
Salesforce

Knowledge
~~knowledge base
Guru, Notion
Confluence

Tracker
~~project tracker
Atlassian
Linear, Asana

传统做法：给每个工具写一套集成。10 个工具 × 5 个 skill = 50 套逻辑。~~category 把 O(n×m) 降到了 O(n+m)。skill 写一遍，工具随便换。

偷法：你的 skill 里别写死 "Jira" "飞书"。写 "~~项目管理工具" "~~即时通信"。

2. Markdown 表格当决策引擎

整个项目用了至少 15 张表格来编码"什么时候做什么"。

分类体系是表格：

类别
信号词
路由

Bug
error, broken, crash
Tier 2 / Engineering

How-to
how do I, configure
Tier 1

Billing
charge, refund
Billing/Finance

Security
data breach, GDPR
Security（立即升级）

优先级框架是表格：

级别
条件
SLA

P1 致命
生产宕机、数据丢失、安全事件
1 小时响应

P2 高
核心功能中断、无变通方案
4 小时响应

P3 中
部分异常、有变通方案
1 工作日响应

P4 低
美观问题、功能请求
2 工作日响应

跟进节奏是表格、升级路径是表格、语气选择是表格、文章维护周期还是表格。

为什么表格好？因为 LLM 解析表格的精确度比段落高一个量级。段落有歧义，表格没有。段落需要推理，表格直接查找。

偷法：skill 里的分支逻辑，别用段落描述。写成表格，LLM 查表比理解文章准多了。

3. 五层置信度体系——教 AI "知道自己不知道什么"

customer-research 这个 skill 设计了一套信息源分级制度：

层级
来源
信心

Tier 1
官方文档、知识库
高

Tier 2
CRM、工单历史
中高

Tier 3
Slack 消息、邮件
中

Tier 4
网页搜索、社区
中低

Tier 5
推断和类比
低

每次调研产出都必须标注置信度。高置信度可以直接答复客户，低置信度必须让人工确认。

还有一条明确的分界线——什么时候自己答，什么时候移交给人：

直接答：官方文档明确，多源验证过，问的是事实，不涉及承诺。

交给人：涉及产品路线图、定价、法务合规、安全、客户定制化配置。

偷法：给你的 AI 工具设置"能力边界"。AI 知道自己不确定的时候说"我拿不准，你看下"，比它自信地给出错误答案好一百倍。

4. 反面规范——告诉 AI 不该干什么

draft-response 的写作规范有一段 DON'T 清单：

❌ 用企业黑话（synergy、leverage、paradigm shift）
❌ 往其他团队/系统/流程上甩锅
❌ 被动语态逃避责任（"Mistakes were made"）
❌ 加太多条件限定，显得没信心
❌ 感叹号过多（每封邮件最多一个）

LLM 执行正面指令的能力很强。但在"别做什么"这件事上容易滑坡。你不说"别用被动语态"，它就会用。你不说"别堆企业废话"，它就会堆。

反面规范就是刹车片。正面规范告诉 AI 踩油门往哪开，反面规范保证它不翻车。

偷法：每个 skill 除了写"做什么"，加一个 DON'T 清单。对 LLM 来说，10 条 DON'T 的价值可能比 20 条 DO 还高。

5. 固定输出模板——消灭输出的随机性

每个 skill 都定义了一个严格的输出骨架。拿分诊来说：

## Triage: [一句话摘要]

**Category:** [Primary] / [Secondary]
**Priority:** [P1-P4] — [简要理由]
**Product area:** [Area/team]

### Issue Summary
### Key Details
### Routing Recommendation
### Suggested Initial Response
### Internal Notes

AI 的输出被硬约束在这个框架里。每次分诊出来的文档长一个样。任何人拿到都能快速扫完。

对比一下"自由格式"的 AI 输出——今天给你写 3 段，明天写 10 段，后天换个结构。使用者每次都要重新"学习"如何阅读 AI 的产出。

偷法：你的 skill 产出什么格式，用 Markdown 代码块写死。别让 AI 自己决定格式。

6. 优雅降级——没工具也能干活

README 里有一句话：

Without these connections, the plugin will ask you to provide context manually and offer frameworks and templates you can fill in with your own data.

MCP 工具没接？不崩溃，不报错。退化到手动模式：请你口头提供背景信息，然后把框架和模板给你，你自己填数据。

核心设计原则：工具连得越多越好用，但不连也不瘫痪。

想想我们日常遇到的多少软件，数据库挂了整个系统就黑屏了？这个插件的设计哲学是——砍到只剩 Markdown 文本输入也能提供 80% 的价值。

偷法：设计 skill 的时候，假设所有外部依赖都挂了。核心能力应该在零上下文模式下依然能跑。

7. 知识沉淀闭环——每次干活都在攒资产

customer-research 调研完一个问题之后：

"要我把这些结论保存到你的知识库里吗？"
"要我基于这次调研创建一个 FAQ 条目吗？"

kb-article 更直接——把已解决的工单变成可搜索的自助文章。

看链条：客户提问 → 研究答案 → 解决问题 → 沉淀为文章 → 下次类似问题客户自助解决 → 工单量下降。

每一次客服交互都在积累组织的知识资产。不只是"解决了一个 ticket"，还"生产了一篇可复用的文档"。这是复利。

几个细节设计也值得看

根因归类。分诊有一条规则："客户说登不上去，但如果原因是系统 Bug，分类为 Bug 而不是 Account。根因决定分类。" 不确定的时候偏向 Bug——宁可过度调查，不可草率关闭。

语气光谱。draft-response 定义了 8 种情境语气：好消息用"庆祝"、坏消息用"坦诚"、故障用"紧急"、升级用"管理者"。还按客户关系阶段（新客户/老客户/受挫客户）做了语气微调。

知识库文章的搜索优化。有一张好标题 vs 坏标题的对比表：

✅ 好
❌ 坏
原因

"如何用 Okta 配置 SSO"
"SSO 设置"
包含客户会搜的工具名

"修复：仪表板显示空白页"
"仪表板问题"
包含客户看到的症状

"错误：'Connection refused'"
"导入问题"
包含精确错误信息

文章生命周期管理。Draft → Published → Needs Update → Archived → Retired。季度审计高流量文章，月度标记 6 个月未更新的内容，每周刷新已知问题的状态。

局限性在哪

说完优点，说不足。

没有个性化配置机制。分类体系、优先级框架、SLA 参数全部硬编码在 SKILL.md 里。想改？直接改源文件。没有 config 层。

没有质量反馈循环。分诊准不准、回复客户满不满意——没有度量指标，没有闭环。工业级部署需要这些数据来持续优化。

只有英文。模板、信号词、沟通规范全是英文的。做中文客服？所有内容需要本地化重写。

纯建议型。AI 只负责起草，不负责执行。没有自动创建工单、自动路由、自动回复的能力。人始终是最后一关。

安全合规空白。PII 处理规则？数据保留策略？审计日志？通通没有。企业用需要自己补这层。

Anthropic 在下什么棋

放远点看，这 11 个开源插件的战略意图很清晰：

第一步，用开源插件定义"AI 工作助手应该长什么样"。你看到这个客服插件觉得"哦，原来 AI 可以这样帮人做客服"——标准就被他们种下了。

第二步，Cowork 平台是运行这些插件的地方。插件免费给你，平台收费。用生态吸引用户，用平台变现。

第三步，MCP 协议。所有工具通过 MCP 连接到 Claude。今天支持 Slack、Intercom、HubSpot。明天其他 SaaS 厂商也来建 MCP 端点。协议层被 Anthropic 事实标准化了。

底层协议 + 中间平台 + 上层内容。这套飞轮和 Google 的 Android 一个味道——开源系统拉生态，Play Store 做分发，Google 服务做变现。

给自己的 Skill 体系抄什么

学什么
怎么学

~~category 抽象
用语义类别（"~~数据源"）取代硬编码的工具名

固定输出模板
每个 skill 用代码块定义输出骨架

决策用表格
分支逻辑从段落改成 Markdown 表格

DON'T 清单
每个 skill 加一段反面规范

技能间串联
"Next Steps" 环节推荐下一个可用的 skill

优雅降级
假设外部依赖全挂，核心功能仍可用

置信度标注
AI 产出需标注信心等级，低信心走人工审核

拆到这儿，最打动我的一点：Anthropic 把整套客服专家的判断力、决策直觉、沟通经验，用 Markdown 文件编码了出来。没写一行 Python，没搞一个 API endpoint，没建一个数据库。

5 个 Markdown 文件，就是一整套客服 AI 的大脑。

这可能就是 AI 原生时代做软件的方式——别写逻辑，写知识。LLM 自己会把知识变成行动。

📎 原始仓库：anthropics/knowledge-work-plugins
📎 分析版本：customer-support v1.2.0