前几天 Anthropic 官方的 skills 仓库合并了 PR #465,说实话这次改动挺大的。不只是代码层面的优化,更像是把整个 skill-creator 从一个简单工具升级成了完整的开发平台。
先看一眼变化有多大
- PR 编号:#465
- 合并时间:2026年2月25日
- 代码量:+5,214 行,-635 行(净增 4,579 行)
- 涉及文件:20 个
- 一句话总结:skill-creator 从简短的指导文档变成了完整的 Skill 开发、评估、优化一体化平台
我之前看到这个 PR 的时候还以为只是小修小补,结果点进去一看 — 好家伙,完全是重写了。
核心变化到底在哪
1. SKILL.md 的彻底重构
之前:skill-creator 的 SKILL.md 就几行字,大概意思是"这是用来创建技能的技能"。
现在:直接干到了 500+ 行,把整个开发流程都写清楚了:
1.1 开发流程终于有了标准
文档把 Skill 开发的生命周期理顺了:
确定需求 → 写草稿 → 测试用例 → 跑评估 → 用户反馈 → 迭代 → 扩大测试集
说实话,之前大家都是凭感觉做,现在好歹有个谱了。
1.2 沟通策略更细了
新增了针对不同技术背景用户的沟通指南:
- 懂技术的:可以用 "evaluation"、"benchmark"、"JSON"、"assertion" 这些词
- 不太懂的:得解释一下这些是什么意思
这点挺实用的,我之前就遇到过跟非技术背景用户沟通时术语满天飞的问题。
1.3 写作模式有讲究
几个原则挺有意思:
- Progressive Disclosure(渐进式披露):三层加载(Metadata → SKILL.md → Bundled Resources)
- Principle of Lack of Surprise(无惊喜原则):别让用户觉得 Skill 的内容和描述对不上
- 写作模式:多用祈使句,说"为什么"比说"必须怎么做"更有用
2. 完整的评估体系
这次更新最重的部分应该就是评估系统了。
2.1 测试用例管理
- 用 JSON 结构化定义测试用例(
evals/evals.json) - 支持断言(assertions)做客观评估
- 区分 with-skill 和 baseline(基线)对比
2.2 并行测试执行
有个关键改进我觉得挺好:要求在同一轮次里把所有测试(with-skill 和 baseline)都启动,而不是一个一个跑。
这样做的好处很明显:
- 所有测试差不多时间完成
- 不会傻等
- 测试环境更一致
之前串行跑的时候经常出现第一个测试跑了半小时,第二个测试因为环境变化结果不一样了。
2.3 可视化评估工具(eval-viewer)
新增了 generate_review.py 脚本:
- Outputs 标签页:看每个测试用例的输出,还能人工评审加反馈
- Benchmark 标签页:看定量指标(通过率、时间、Token 使用量)
- 支持跨迭代对比(iteration-1 vs iteration-2)
- 支持静态 HTML 模式(没显示器的环境也能用)
这个工具我是真觉得实用。之前评审结果都是看日志文件,眼睛都看花了。
2.4 定量断言系统
断言格式要求统一(grading.json),必须用这些字段:
{
"text": "断言描述",
"passed": true/false,
"evidence": "证据说明"
}
强制统一格式的好处是脚本可以直接处理,不用写各种解析逻辑。
3. Agent 分工更细了
新增了三个 agent 指导文档:
3.1 Grader Agent(agents/grader.md)
评估输出是不是满足断言要求。关键点:
- 优先用脚本检查(快、可靠、能复用)
- 主观型 Skill(写作风格、设计质量)别强行量化
3.2 Comparator Agent(agents/comparator.md)
盲测对比两个版本 Skill 的输出。适用于需要严格对比的场景。
3.3 Analyzer Agent(agents/analyzer.md)
分析基准测试结果,找出:
- 无效断言(总是通过,区分不了版本)
- 高方差测试用例(可能不稳定)
- 时间/Token 权衡分析
这三个 agent 各司其职,比之前一个 agent 干所有活要清晰多了。
4. Description 优化系统
新增了自动优化 Skill 描述(description 字段)来提高触发准确率的流程:
4.1 触发评估集生成
- 生成 20 个评估查询(mix of should-trigger 和 should-not-trigger)
- 必须是真实的、具体的、有细节的用户查询
- 避免简单明显的用例(比如"写个斐波那契函数")
4.2 优化循环
- 自动分割成训练集(60%)和测试集(40%)
- 用 Extended Thinking 提改进建议
- 最多迭代 5 次
- 基于测试集分数选最佳描述(避免过拟合)
这个系统我觉得对新手挺友好的,不用自己反复试 description 了。
5. 文档结构优化
新增了几个参考文档:
- references/schemas.md:JSON 结构定义
- references/workflows.md:工作流程说明
- references/output-patterns.md:输出模式指南
这些文档把之前散落在各处的信息整理得挺清楚的。
6. 辅助脚本的调整
6.1 移除的脚本
init_skill.py:官方说不需要 Claude 能够创建 valid skills 了,因为已经有验证逻辑
这点有点争议,我后面会说。
6.2 新增/改进的脚本
aggregate_benchmark.py:聚合基准测试结果generate_report.py:生成报告improve_description.py:改进描述package_skill.py:打包 Skillrun_eval.py:运行单个评估run_loop.py:运行优化循环utils.py:工具函数
这些脚本覆盖了从评估到优化的完整链路,挺全的。
7. DocX Skill 也跟着升级了
算是顺便的福利,docx skill 也多了不少新功能示例:
7.1 超链接
- 外部链接(ExternalHyperlink)
- 内部链接(InternalHyperlink + Bookmark)
7.2 脚注
- FootnoteReferenceRun
- 自定义脚注内容
7.3 制表符(Tab Stops)
- 右对齐文本(标题和日期同一行)
- 点状引导线(TOC 风格)
7.4 多栏布局
- 等宽栏
- 自定义宽度栏
- 栏分隔线
这些功能做 Word 文档的时候确实能用到。
设计思路的变化
从"创建工具"到"开发平台"
之前:skill-creator 更像个脚手架生成器,帮你快速创建目录结构。
现在:变成了完整的"Skill 开发平台":
- 需求捕获
- 原型开发
- 测试用例设计
- 自动化评估
- 人工评审
- 迭代优化
- 描述优化
- 打包发布
这一套下来,感觉像是把软件工程的 CI/CD 搬到了 AI Skill 开发里。
从"主观判断"到"客观量化"
之前:Skill 质量主要靠人工评审和主观判断。
现在:完整的量化评估体系:
- 客观断言(assertions)
- 定量基准测试(benchmarks)
- 盲测对比(blind comparison)
- 统计分析(variance analysis)
数据驱动决策,总比拍脑袋强。
从"单兵作战"到"团队协作"
之前:一个 agent 干所有活。
现在:多个专业 agent:
- Creator(开发者)
- Grader(评估者)
- Comparator(对比者)
- Analyzer(分析师)
分工明确,各司其职。
对开发者的影响
1. 学习曲线变陡了
新的 workflow 确实更复杂,需要理解:
- 评估系统的设计
- Agent 协作模式
- 基准测试怎么读
新手可能得花点时间适应。
2. Skill 质量会提升
完整的评估体系会推动:
- 更高的 Skill 质量
- 更好的触发准确率
- 更可靠的性能表现
长期来看是好事。
3. 开发效率有得有失
前期投入确实增加了,但长期:
- 减少手动测试工作量
- 提高迭代针对性
- 避免回归问题
我觉得算是个值得的 trade-off。
4. 社区生态会成熟
这次更新标志着 Anthropic 官方的 Skill 生态开始走向成熟:
- 标准化的开发流程
- 可量化的质量标准
- 可复用的评估工具
以后可能会有更多第三方工具和最佳实践涌现出来。
有争议的地方
init_skill.py 被移除了
社区成员 @zackZhu1 在 PR 里说:
"init_skill.py 被移除了?这个脚本挺有用的啊,可以生成 boilerplate 目录和代码"
官方回应 @kencheeto:
"我们越来越觉得不需要 Claude 能创建 valid skills 了(尤其是已经有验证逻辑)。如果你觉得有用,可以从历史 commit 里拿回来"
说实话我挺理解这个决定。有了验证逻辑之后,自动生成目录结构的必要性确实降低了。而且旧的 commit 还能访问到,需要的话可以手动提取。
但我也理解有些开发者习惯了脚手架,突然没了会觉得不方便。
这事儿我觉得官方可以做得更温和一点,比如把 init_skill.py 保留成可选工具,而不是直接删掉。
总结一下
这次 skill-creator 的更新是一次挺大的提升,标志着 Anthropic 官方的 Skill 生态从"野蛮生长"进入了"规范化开发"阶段。
关键成就
- ✅ 完整的工作流程文档
- ✅ 标准化的评估体系
- ✅ 可视化的评审工具
- ✅ 自动化的优化流程
- ✅ 丰富的参考文档
可能的问题
- ⚠️ 文档太长(500+ 行)可能影响加载效率
- ⚠️ 学习曲线陡峭,新手不好上手
- ⚠️ 评估流程相对复杂,简单 Skill 可能用不上
未来会怎样
我猜:
- 会有更多官方 Skill 采用这套开发流程
- 社区可能会基于这套体系开发辅助工具
- Skill 质量的整体提升会推动 Claude Code 生态繁荣
参考链接
- PR #465:https://github.com/anthropics/skills/pull/465
- skill-creator 源码:https://github.com/anthropics/skills/tree/main/skills/skill-creator
- Commit 3d59511:https://github.com/anthropics/skills/commit/3d59511518591fa82e6cfcf0438d68dd5dad3e76