skill-creator

概念 skill 测评开发工具 anthropic 来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)

skill-creator

Anthropic 官方提出的 Claude Code Skill 构建与评估流程（Create → Eval → Improve → Benchmark），也是水的离子积在做百度搜索 Skill 测评时所遵循的标准方法论。

核心流程

Create：基于需求设计 SKILL.md 和配套脚本。
Eval：编写 evals.json 测试用例，运行 with-skill / without-skill 对比。
Improve：根据 eval 结果迭代优化 description 和功能逻辑。
Benchmark：批量跑分，聚合 pass rate、耗时、token 消耗等数据。

关键机制

Baseline 对比：新旧版本或无 skill 的基线对照，确保改进可量化。
Trigger Accuracy：针对 description 做 precision/recall 优化，提升触发准确率。
Blind Comparison：A/B 盲测排除主观偏差。

在水水的实践中的应用

水的离子积在《百度搜索 Skill 深度测评》中明确采用了 skill-creator 标准流程：

设计测试用例 → 运行测试 → 收集数据 → 对比分析 → 生成报告

来源

src-百度搜索Skill深度测评
（Anthropic 官方文档）