原始来源(不可变)
SLM-Skills分类评测标准
文件路径:raw/project-docs/SLM-Skills分类评测标准.md
28 个 Skills 的分类评测标准
核心原则
不同 Skill 的业务输出形态不同,评测维度和权重必须差异化。"Links" 对一个搜索类 Skill 没有意义,"Fidelity" 对一个创意写作 Skill 的权重也应该低于分析类 Skill。
我们按输出形态将 28 个 Skill 分为 5 大类,每类配置独立的 note_judge 维度和权重。
分类一:笔记生产型(Note Producers)
特征:直接生成或改写笔记文件,输出物是用户可长期阅读的 Markdown/文档。
包含 Skills:
content-creatordoc-importerweb-importernews-to-noteliterature-readerclass-note-builderreview-noteswpsnote-beautifier
适用 5 维度(全量):
| 维度 | 权重 | 重点说明 |
|---|---|---|
| Structure | 20% | 标题层级清晰、段落有节制、善用列表和表格 |
| Density | 20% | 无冗余口水话,关键信息完整保留 |
| Links | 20% | 主动建立 [[internal links]]、标签、引用关系 |
| Actionability | 15% | 有明确的 takeaways、下一步动作或结论 |
| Fidelity | 25% | 严格忠实于源材料,无编造数据和章节 |
独特关注点:
doc-importer/web-importer:重点看格式还原度(图片占位符、表格、代码块是否保留)literature-reader:重点看学术字段完整性(作者、年份、期刊、方法、结果)wpsnote-beautifier:重点看排版规范一致性(XML block 结构正确性)class-note-builder:重点看知识结构化(概念定义→例题→总结)
分类二:学习工具型(Learning Artifacts)
特征:输出物是服务于复习/记忆的教学材料(闪卡、教案、重点提取、缺口分析),不是完整的文章式笔记。
包含 Skills:
notes-to-flashcardsnotes-to-lesson-planlecture-focus-extractorlive-transcript-summaryprerequisite-gap-findermisconception-finderstudy-note-linker
适用维度(变体 5 维):
| 维度 | 权重 | 重点说明 |
|---|---|---|
| Structure | 25% | 格式高度结构化(Q/A 对、分级要点、对比表格) |
| Density | 25% | 极度精简,一句话就是一个知识点 |
| Links | 10% | 适当关联源笔记即可,非核心 |
| Actionability | 25% | 对学习者"下一步该做什么"非常明确 |
| Fidelity | 15% | 忠于源笔记,但允许合理的教学简化 |
独特关注点:
notes-to-flashcards:重点看问答对质量(问题是否真的能触发回忆,答案是否简洁自包含)lecture-focus-extractor:重点看考点命中率(提取的是不是老师反复强调的内容)prerequisite-gap-finder:重点看修复路径可执行性(缺什么→为什么缺→怎么补→补完怎么验)misconception-finder:重点看辨析清晰度(错误认知 vs 正确认知的对比是否一针见血)study-note-linker:重点看关联合理性(链接不是越多越好,而是真的有逻辑关联)
分类三:洞察分析型(Insight Generators)
特征:不直接生产"笔记文件",而是基于已有笔记做分析、归纳、连接,输出一份分析报告或洞察结论。
包含 Skills:
ie-engineie-retrieve-memoryie-recall-memoryie-connect-dotsie-generate-insight
适用维度(分析型 5 维):
| 维度 | 权重 | 重点说明 |
|---|---|---|
| Structure | 15% | 报告结构清晰(背景→证据→结论→建议) |
| Density | 15% | 论据集中,不发散 |
| Links | 25% | 核心维度——跨笔记的引用、标签关联、证据链是否扎实 |
| Actionability | 25% | 洞察必须可落地,不能止于"值得关注" |
| Fidelity | 20% | 结论必须有明确的笔记原文支撑 |
独特关注点:
ie-connect-dots:重点看关联创新性(连接的是不是用户自己没想到的)和关联可信度ie-generate-insight:重点看反直觉程度 和 证据充分度 的平衡ie-retrieve-memory/ie-recall-memory:重点看召回完整率(有没有漏掉相关的旧笔记)
分类四:操作执行型(Action/Tool Skills)
特征:Skill 的核心价值不是"输出一段好文字",而是正确完成一个操作(搜索、发布、整理标签、创建 Skill、写代码)。
包含 Skills:
skill-creatorwechat-publishernote-copilottag-organizecoding-assistantwps-notewps-note-intelligent-search
适用维度(任务型 5 维):
| 维度 | 权重 | 重点说明 |
|---|---|---|
| Structure | 10% | 输出格式符合预期即可,不是核心 |
| Density | 10% | irrelevant,操作类不评密度 |
| Links | 0% / 替换为 Tool-Use Accuracy | 是否调用了正确的工具/命令,参数是否正确 |
| Actionability | 30% | 任务是否真正完成了(发布成功、标签已改、代码可运行) |
| Fidelity | 25% | 对用户意图的理解是否准确,有没有误操作 |
| 新增:Completeness | 25% | 步骤是否完整,有没有漏掉必要的确认或收尾 |
特殊处理:
skill-creator:需要单独一套评估框架(见下文的 Meta Skill 扩展说明)wechat-publisher:最终验收指标是公众号发布成功,而不是 Markdown 写得漂亮tag-organize:验收指标是标签树结构的正确性和无遗漏文件coding-assistant:验收指标是代码可运行性和符合用户指定的语言/框架wps-note-intelligent-search:验收指标是搜索结果相关度和无遗漏
分类五:Meta / Orchestrator 型
特征:这种 Skill 本身不直接处理笔记内容,而是协调其他 Skill 或引导用户完成复杂工作流。
包含 Skills:
learning-assistant
适用维度:
- 不适用标准的 note_judge
- 应采用 Workflow Completion Rate(工作流完成率)
- 以及 Skill Routing Accuracy(是否把任务路由给了正确的下游 Skill)
Skill → 分类 映射表
| Skill | 分类 | 关键差异维度 |
|---|---|---|
| content-creator | 笔记生产型 | Links + Fidelity 权重高 |
| doc-importer | 笔记生产型 | 格式还原度 |
| web-importer | 笔记生产型 | 格式还原度 + 图片处理 |
| news-to-note | 笔记生产型 | 时效信息保留 + 结构化 |
| literature-reader | 笔记生产型 | 学术字段完整性 |
| class-note-builder | 笔记生产型 | 知识结构化 |
| review-notes | 笔记生产型 | 综合质量均衡 |
| wpsnote-beautifier | 笔记生产型 | 排版规范一致性 |
| notes-to-flashcards | 学习工具型 | Q/A 对质量 |
| notes-to-lesson-plan | 学习工具型 | 教学步骤可执行性 |
| lecture-focus-extractor | 学习工具型 | 考点命中率 |
| live-transcript-summary | 学习工具型 | 要点捕获率 + 发言者区分 |
| prerequisite-gap-finder | 学习工具型 | 修复路径闭环 |
| misconception-finder | 学习工具型 | 辨析清晰度 |
| study-note-linker | 学习工具型 | 关联质量 > 数量 |
| ie-engine | 洞察分析型 | 引擎综合能力 |
| ie-retrieve-memory | 洞察分析型 | 召回完整率 |
| ie-recall-memory | 洞察分析型 | 召回完整率 |
| ie-connect-dots | 洞察分析型 | 关联创新性 + 可信度 |
| ie-generate-insight | 洞察分析型 | 洞察可落地性 |
| skill-creator | 操作执行型 | 需独立评估框架 |
| wechat-publisher | 操作执行型 | 发布成功率为终极指标 |
| note-copilot | 操作执行型 | 意图理解 + 任务完成度 |
| tag-organize | 操作执行型 | 标签树正确性 |
| coding-assistant | 操作执行型 | 代码可运行性 |
| wps-note | 操作执行型 | Tool-Use Accuracy |
| wps-note-intelligent-search | 操作执行型 | 搜索结果相关度 |
| learning-assistant | Meta 型 | Workflow + Routing 准确率 |
对 SLM 系统的实现建议
方案 A:分类映射文件 + 分类专属 Judge Prompt(推荐)
note_effect/
├── agents/
│ ├── note_judge_producer.md # 笔记生产型
│ ├── note_judge_learning.md # 学习工具型
│ ├── note_judge_insight.md # 洞察分析型
│ ├── note_judge_action.md # 操作执行型
│ └── note_judge_meta.md # Meta 型
├── scripts/
│ ├── classify_skill.py # 输出 skill -> archetype 映射
│ └── judge_router.py # 根据 archetype 调用对应 judge
方案 B:统一 Prompt + 动态权重注入
在统一的 note_judge.md 中,通过 frontmatter 注入权重:
{
"archetype": "producer",
"weights": {
"structure": 0.20,
"density": 0.20,
"links": 0.20,
"actionability": 0.15,
"fidelity": 0.25
}
}
缺点:一个 Prompt 要兼容 5 种差异较大的形态,容易让 Judge 困惑。
推荐做法
采用方案 A。因为:
- 不同分类对维度的定义本身就不一样(比如操作执行型的 "Actionability" = 任务是否完成,笔记生产型的 "Actionability" = 结论是否明确)
- 分类后,Judge Prompt 可以写得更聚焦,评分一致性更高
- 未来新增 Skill 时,只需要判断它属于哪个分类,即可自动复用该分类的评判标准
下一步行动
- 确认上述 28 个 Skill 的分类映射是否合理
- 确定采用「分类专属 Judge Prompt」的方案 A
- 我为每个分类编写具体的 Judge Prompt,并更新
coverage_scorer.py以支持分类维度声明 - 在
registry.json中为每个 Skill 标注evaluation_archetype