skill-creator
概念 skill 测评 开发工具 anthropic
来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)
skill-creator
Anthropic 官方提出的 Claude Code Skill 构建与评估流程(Create → Eval → Improve → Benchmark),也是 水的离子积 在做百度搜索 Skill 测评时所遵循的标准方法论。
核心流程
- Create:基于需求设计 SKILL.md 和配套脚本。
- Eval:编写 evals.json 测试用例,运行 with-skill / without-skill 对比。
- Improve:根据 eval 结果迭代优化 description 和功能逻辑。
- Benchmark:批量跑分,聚合 pass rate、耗时、token 消耗等数据。
关键机制
- Baseline 对比:新旧版本或无 skill 的基线对照,确保改进可量化。
- Trigger Accuracy:针对 description 做 precision/recall 优化,提升触发准确率。
- Blind Comparison:A/B 盲测排除主观偏差。
在水水的实践中的应用
水的离子积 在《百度搜索 Skill 深度测评》中明确采用了 skill-creator 标准流程:
设计测试用例 → 运行测试 → 收集数据 → 对比分析 → 生成报告
来源
- src-百度搜索Skill深度测评
- (Anthropic 官方文档)