原始来源(不可变)

SLM-Skills分类评测标准

文件路径:raw/project-docs/SLM-Skills分类评测标准.md

28 个 Skills 的分类评测标准

核心原则

不同 Skill 的业务输出形态不同,评测维度和权重必须差异化。"Links" 对一个搜索类 Skill 没有意义,"Fidelity" 对一个创意写作 Skill 的权重也应该低于分析类 Skill。

我们按输出形态将 28 个 Skill 分为 5 大类,每类配置独立的 note_judge 维度和权重。


分类一:笔记生产型(Note Producers)

特征:直接生成或改写笔记文件,输出物是用户可长期阅读的 Markdown/文档。

包含 Skills

  • content-creator
  • doc-importer
  • web-importer
  • news-to-note
  • literature-reader
  • class-note-builder
  • review-notes
  • wpsnote-beautifier

适用 5 维度(全量)

维度 权重 重点说明
Structure 20% 标题层级清晰、段落有节制、善用列表和表格
Density 20% 无冗余口水话,关键信息完整保留
Links 20% 主动建立 [[internal links]]、标签、引用关系
Actionability 15% 有明确的 takeaways、下一步动作或结论
Fidelity 25% 严格忠实于源材料,无编造数据和章节

独特关注点

  • doc-importer / web-importer:重点看格式还原度(图片占位符、表格、代码块是否保留)
  • literature-reader:重点看学术字段完整性(作者、年份、期刊、方法、结果)
  • wpsnote-beautifier:重点看排版规范一致性(XML block 结构正确性)
  • class-note-builder:重点看知识结构化(概念定义→例题→总结)

分类二:学习工具型(Learning Artifacts)

特征:输出物是服务于复习/记忆的教学材料(闪卡、教案、重点提取、缺口分析),不是完整的文章式笔记。

包含 Skills

  • notes-to-flashcards
  • notes-to-lesson-plan
  • lecture-focus-extractor
  • live-transcript-summary
  • prerequisite-gap-finder
  • misconception-finder
  • study-note-linker

适用维度(变体 5 维)

维度 权重 重点说明
Structure 25% 格式高度结构化(Q/A 对、分级要点、对比表格)
Density 25% 极度精简,一句话就是一个知识点
Links 10% 适当关联源笔记即可,非核心
Actionability 25% 对学习者"下一步该做什么"非常明确
Fidelity 15% 忠于源笔记,但允许合理的教学简化

独特关注点

  • notes-to-flashcards:重点看问答对质量(问题是否真的能触发回忆,答案是否简洁自包含)
  • lecture-focus-extractor:重点看考点命中率(提取的是不是老师反复强调的内容)
  • prerequisite-gap-finder:重点看修复路径可执行性(缺什么→为什么缺→怎么补→补完怎么验)
  • misconception-finder:重点看辨析清晰度(错误认知 vs 正确认知的对比是否一针见血)
  • study-note-linker:重点看关联合理性(链接不是越多越好,而是真的有逻辑关联)

分类三:洞察分析型(Insight Generators)

特征:不直接生产"笔记文件",而是基于已有笔记做分析、归纳、连接,输出一份分析报告或洞察结论。

包含 Skills

  • ie-engine
  • ie-retrieve-memory
  • ie-recall-memory
  • ie-connect-dots
  • ie-generate-insight

适用维度(分析型 5 维)

维度 权重 重点说明
Structure 15% 报告结构清晰(背景→证据→结论→建议)
Density 15% 论据集中,不发散
Links 25% 核心维度——跨笔记的引用、标签关联、证据链是否扎实
Actionability 25% 洞察必须可落地,不能止于"值得关注"
Fidelity 20% 结论必须有明确的笔记原文支撑

独特关注点

  • ie-connect-dots:重点看关联创新性(连接的是不是用户自己没想到的)和关联可信度
  • ie-generate-insight:重点看反直觉程度证据充分度 的平衡
  • ie-retrieve-memory / ie-recall-memory:重点看召回完整率(有没有漏掉相关的旧笔记)

分类四:操作执行型(Action/Tool Skills)

特征:Skill 的核心价值不是"输出一段好文字",而是正确完成一个操作(搜索、发布、整理标签、创建 Skill、写代码)。

包含 Skills

  • skill-creator
  • wechat-publisher
  • note-copilot
  • tag-organize
  • coding-assistant
  • wps-note
  • wps-note-intelligent-search

适用维度(任务型 5 维)

维度 权重 重点说明
Structure 10% 输出格式符合预期即可,不是核心
Density 10% irrelevant,操作类不评密度
Links 0% / 替换为 Tool-Use Accuracy 是否调用了正确的工具/命令,参数是否正确
Actionability 30% 任务是否真正完成了(发布成功、标签已改、代码可运行)
Fidelity 25% 对用户意图的理解是否准确,有没有误操作
新增:Completeness 25% 步骤是否完整,有没有漏掉必要的确认或收尾

特殊处理

  • skill-creator:需要单独一套评估框架(见下文的 Meta Skill 扩展说明)
  • wechat-publisher:最终验收指标是公众号发布成功,而不是 Markdown 写得漂亮
  • tag-organize:验收指标是标签树结构的正确性无遗漏文件
  • coding-assistant:验收指标是代码可运行性符合用户指定的语言/框架
  • wps-note-intelligent-search:验收指标是搜索结果相关度无遗漏

分类五:Meta / Orchestrator 型

特征:这种 Skill 本身不直接处理笔记内容,而是协调其他 Skill 或引导用户完成复杂工作流

包含 Skills

  • learning-assistant

适用维度

  • 不适用标准的 note_judge
  • 应采用 Workflow Completion Rate(工作流完成率)
  • 以及 Skill Routing Accuracy(是否把任务路由给了正确的下游 Skill)

Skill → 分类 映射表

Skill 分类 关键差异维度
content-creator 笔记生产型 Links + Fidelity 权重高
doc-importer 笔记生产型 格式还原度
web-importer 笔记生产型 格式还原度 + 图片处理
news-to-note 笔记生产型 时效信息保留 + 结构化
literature-reader 笔记生产型 学术字段完整性
class-note-builder 笔记生产型 知识结构化
review-notes 笔记生产型 综合质量均衡
wpsnote-beautifier 笔记生产型 排版规范一致性
notes-to-flashcards 学习工具型 Q/A 对质量
notes-to-lesson-plan 学习工具型 教学步骤可执行性
lecture-focus-extractor 学习工具型 考点命中率
live-transcript-summary 学习工具型 要点捕获率 + 发言者区分
prerequisite-gap-finder 学习工具型 修复路径闭环
misconception-finder 学习工具型 辨析清晰度
study-note-linker 学习工具型 关联质量 > 数量
ie-engine 洞察分析型 引擎综合能力
ie-retrieve-memory 洞察分析型 召回完整率
ie-recall-memory 洞察分析型 召回完整率
ie-connect-dots 洞察分析型 关联创新性 + 可信度
ie-generate-insight 洞察分析型 洞察可落地性
skill-creator 操作执行型 需独立评估框架
wechat-publisher 操作执行型 发布成功率为终极指标
note-copilot 操作执行型 意图理解 + 任务完成度
tag-organize 操作执行型 标签树正确性
coding-assistant 操作执行型 代码可运行性
wps-note 操作执行型 Tool-Use Accuracy
wps-note-intelligent-search 操作执行型 搜索结果相关度
learning-assistant Meta 型 Workflow + Routing 准确率

对 SLM 系统的实现建议

方案 A:分类映射文件 + 分类专属 Judge Prompt(推荐)

note_effect/
├── agents/
│   ├── note_judge_producer.md      # 笔记生产型
│   ├── note_judge_learning.md      # 学习工具型
│   ├── note_judge_insight.md       # 洞察分析型
│   ├── note_judge_action.md        # 操作执行型
│   └── note_judge_meta.md          # Meta 型
├── scripts/
│   ├── classify_skill.py           # 输出 skill -> archetype 映射
│   └── judge_router.py             # 根据 archetype 调用对应 judge

方案 B:统一 Prompt + 动态权重注入

在统一的 note_judge.md 中,通过 frontmatter 注入权重:

{
  "archetype": "producer",
  "weights": {
    "structure": 0.20,
    "density": 0.20,
    "links": 0.20,
    "actionability": 0.15,
    "fidelity": 0.25
  }
}

缺点:一个 Prompt 要兼容 5 种差异较大的形态,容易让 Judge 困惑。

推荐做法

采用方案 A。因为:

  1. 不同分类对维度的定义本身就不一样(比如操作执行型的 "Actionability" = 任务是否完成,笔记生产型的 "Actionability" = 结论是否明确)
  2. 分类后,Judge Prompt 可以写得更聚焦,评分一致性更高
  3. 未来新增 Skill 时,只需要判断它属于哪个分类,即可自动复用该分类的评判标准

下一步行动

  1. 确认上述 28 个 Skill 的分类映射是否合理
  2. 确定采用「分类专属 Judge Prompt」的方案 A
  3. 我为每个分类编写具体的 Judge Prompt,并更新 coverage_scorer.py 以支持分类维度声明
  4. registry.json 中为每个 Skill 标注 evaluation_archetype