skill-creator

概念 skill 测评 开发工具 anthropic 来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)

skill-creator

Anthropic 官方提出的 Claude Code Skill 构建与评估流程(Create → Eval → Improve → Benchmark),也是 水的离子积 在做百度搜索 Skill 测评时所遵循的标准方法论。

核心流程

  1. Create:基于需求设计 SKILL.md 和配套脚本。
  2. Eval:编写 evals.json 测试用例,运行 with-skill / without-skill 对比。
  3. Improve:根据 eval 结果迭代优化 description 和功能逻辑。
  4. Benchmark:批量跑分,聚合 pass rate、耗时、token 消耗等数据。

关键机制

  • Baseline 对比:新旧版本或无 skill 的基线对照,确保改进可量化。
  • Trigger Accuracy:针对 description 做 precision/recall 优化,提升触发准确率。
  • Blind Comparison:A/B 盲测排除主观偏差。

在水水的实践中的应用

水的离子积 在《百度搜索 Skill 深度测评》中明确采用了 skill-creator 标准流程:

设计测试用例 → 运行测试 → 收集数据 → 对比分析 → 生成报告

来源