原始来源（不可变）

SLM-Skills分类评测标准

文件路径：raw/project-docs/SLM-Skills分类评测标准.md

28 个 Skills 的分类评测标准

核心原则

不同 Skill 的业务输出形态不同，评测维度和权重必须差异化。"Links" 对一个搜索类 Skill 没有意义，"Fidelity" 对一个创意写作 Skill 的权重也应该低于分析类 Skill。

我们按输出形态将 28 个 Skill 分为 5 大类，每类配置独立的 note_judge 维度和权重。

分类一：笔记生产型（Note Producers）

特征：直接生成或改写笔记文件，输出物是用户可长期阅读的 Markdown/文档。

包含 Skills：

content-creator
doc-importer
web-importer
news-to-note
literature-reader
class-note-builder
review-notes
wpsnote-beautifier

适用 5 维度（全量）：

维度	权重	重点说明
Structure	20%	标题层级清晰、段落有节制、善用列表和表格
Density	20%	无冗余口水话，关键信息完整保留
Links	20%	主动建立 `[[internal links]]`、标签、引用关系
Actionability	15%	有明确的 takeaways、下一步动作或结论
Fidelity	25%	严格忠实于源材料，无编造数据和章节

独特关注点：

doc-importer / web-importer：重点看格式还原度（图片占位符、表格、代码块是否保留）
literature-reader：重点看学术字段完整性（作者、年份、期刊、方法、结果）
wpsnote-beautifier：重点看排版规范一致性（XML block 结构正确性）
class-note-builder：重点看知识结构化（概念定义→例题→总结）

分类二：学习工具型（Learning Artifacts）

特征：输出物是服务于复习/记忆的教学材料（闪卡、教案、重点提取、缺口分析），不是完整的文章式笔记。

包含 Skills：

notes-to-flashcards
notes-to-lesson-plan
lecture-focus-extractor
live-transcript-summary
prerequisite-gap-finder
misconception-finder
study-note-linker

适用维度（变体 5 维）：

维度	权重	重点说明
Structure	25%	格式高度结构化（Q/A 对、分级要点、对比表格）
Density	25%	极度精简，一句话就是一个知识点
Links	10%	适当关联源笔记即可，非核心
Actionability	25%	对学习者"下一步该做什么"非常明确
Fidelity	15%	忠于源笔记，但允许合理的教学简化

独特关注点：

notes-to-flashcards：重点看问答对质量（问题是否真的能触发回忆，答案是否简洁自包含）
lecture-focus-extractor：重点看考点命中率（提取的是不是老师反复强调的内容）
prerequisite-gap-finder：重点看修复路径可执行性（缺什么→为什么缺→怎么补→补完怎么验）
misconception-finder：重点看辨析清晰度（错误认知 vs 正确认知的对比是否一针见血）
study-note-linker：重点看关联合理性（链接不是越多越好，而是真的有逻辑关联）

分类三：洞察分析型（Insight Generators）

特征：不直接生产"笔记文件"，而是基于已有笔记做分析、归纳、连接，输出一份分析报告或洞察结论。

包含 Skills：

ie-engine
ie-retrieve-memory
ie-recall-memory
ie-connect-dots
ie-generate-insight

适用维度（分析型 5 维）：

维度	权重	重点说明
Structure	15%	报告结构清晰（背景→证据→结论→建议）
Density	15%	论据集中，不发散
Links	25%	核心维度——跨笔记的引用、标签关联、证据链是否扎实
Actionability	25%	洞察必须可落地，不能止于"值得关注"
Fidelity	20%	结论必须有明确的笔记原文支撑

独特关注点：

ie-connect-dots：重点看关联创新性（连接的是不是用户自己没想到的）和关联可信度
ie-generate-insight：重点看反直觉程度 和 证据充分度 的平衡
ie-retrieve-memory / ie-recall-memory：重点看召回完整率（有没有漏掉相关的旧笔记）

分类四：操作执行型（Action/Tool Skills）

特征：Skill 的核心价值不是"输出一段好文字"，而是正确完成一个操作（搜索、发布、整理标签、创建 Skill、写代码）。

包含 Skills：

skill-creator
wechat-publisher
note-copilot
tag-organize
coding-assistant
wps-note
wps-note-intelligent-search

适用维度（任务型 5 维）：

维度	权重	重点说明
Structure	10%	输出格式符合预期即可，不是核心
Density	10%	irrelevant，操作类不评密度
Links	0% / 替换为 Tool-Use Accuracy	是否调用了正确的工具/命令，参数是否正确
Actionability	30%	任务是否真正完成了（发布成功、标签已改、代码可运行）
Fidelity	25%	对用户意图的理解是否准确，有没有误操作
新增：Completeness	25%	步骤是否完整，有没有漏掉必要的确认或收尾

特殊处理：

skill-creator：需要单独一套评估框架（见下文的 Meta Skill 扩展说明）
wechat-publisher：最终验收指标是公众号发布成功，而不是 Markdown 写得漂亮
tag-organize：验收指标是标签树结构的正确性和无遗漏文件
coding-assistant：验收指标是代码可运行性和符合用户指定的语言/框架
wps-note-intelligent-search：验收指标是搜索结果相关度和无遗漏

分类五：Meta / Orchestrator 型

特征：这种 Skill 本身不直接处理笔记内容，而是协调其他 Skill 或引导用户完成复杂工作流。

包含 Skills：

learning-assistant

适用维度：

不适用标准的 note_judge
应采用 Workflow Completion Rate（工作流完成率）
以及 Skill Routing Accuracy（是否把任务路由给了正确的下游 Skill）

Skill → 分类映射表

Skill	分类	关键差异维度
content-creator	笔记生产型	Links + Fidelity 权重高
doc-importer	笔记生产型	格式还原度
web-importer	笔记生产型	格式还原度 + 图片处理
news-to-note	笔记生产型	时效信息保留 + 结构化
literature-reader	笔记生产型	学术字段完整性
class-note-builder	笔记生产型	知识结构化
review-notes	笔记生产型	综合质量均衡
wpsnote-beautifier	笔记生产型	排版规范一致性
notes-to-flashcards	学习工具型	Q/A 对质量
notes-to-lesson-plan	学习工具型	教学步骤可执行性
lecture-focus-extractor	学习工具型	考点命中率
live-transcript-summary	学习工具型	要点捕获率 + 发言者区分
prerequisite-gap-finder	学习工具型	修复路径闭环
misconception-finder	学习工具型	辨析清晰度
study-note-linker	学习工具型	关联质量 > 数量
ie-engine	洞察分析型	引擎综合能力
ie-retrieve-memory	洞察分析型	召回完整率
ie-recall-memory	洞察分析型	召回完整率
ie-connect-dots	洞察分析型	关联创新性 + 可信度
ie-generate-insight	洞察分析型	洞察可落地性
skill-creator	操作执行型	需独立评估框架
wechat-publisher	操作执行型	发布成功率为终极指标
note-copilot	操作执行型	意图理解 + 任务完成度
tag-organize	操作执行型	标签树正确性
coding-assistant	操作执行型	代码可运行性
wps-note	操作执行型	Tool-Use Accuracy
wps-note-intelligent-search	操作执行型	搜索结果相关度
learning-assistant	Meta 型	Workflow + Routing 准确率

对 SLM 系统的实现建议

方案 A：分类映射文件 + 分类专属 Judge Prompt（推荐）

note_effect/
├── agents/
│   ├── note_judge_producer.md      # 笔记生产型
│   ├── note_judge_learning.md      # 学习工具型
│   ├── note_judge_insight.md       # 洞察分析型
│   ├── note_judge_action.md        # 操作执行型
│   └── note_judge_meta.md          # Meta 型
├── scripts/
│   ├── classify_skill.py           # 输出 skill -> archetype 映射
│   └── judge_router.py             # 根据 archetype 调用对应 judge

方案 B：统一 Prompt + 动态权重注入

在统一的 note_judge.md 中，通过 frontmatter 注入权重：

{
  "archetype": "producer",
  "weights": {
    "structure": 0.20,
    "density": 0.20,
    "links": 0.20,
    "actionability": 0.15,
    "fidelity": 0.25
  }
}

缺点：一个 Prompt 要兼容 5 种差异较大的形态，容易让 Judge 困惑。

下一步行动

确认上述 28 个 Skill 的分类映射是否合理
确定采用「分类专属 Judge Prompt」的方案 A
我为每个分类编写具体的 Judge Prompt，并更新 coverage_scorer.py 以支持分类维度声明
在 registry.json 中为每个 Skill 标注 evaluation_archetype

SLM-Skills分类评测标准

28 个 Skills 的分类评测标准

核心原则

分类一：笔记生产型（Note Producers）

分类二：学习工具型（Learning Artifacts）

分类三：洞察分析型（Insight Generators）

分类四：操作执行型（Action/Tool Skills）

分类五：Meta / Orchestrator 型

Skill → 分类 映射表

对 SLM 系统的实现建议

方案 A：分类映射文件 + 分类专属 Judge Prompt（推荐）

方案 B：统一 Prompt + 动态权重注入

推荐做法

下一步行动

Skill → 分类映射表