原始来源(不可变)

SLM-平台级评分项池设计

文件路径:raw/project-docs/SLM-平台级评分项池设计.md

SLM 平台级评分项池设计

核心原则

  1. 评分项由平台统一定义:任何 Agent 在做 Judge 时,不得临时发明新的评分维度。
  2. 细则由平台写死:每个评分项必须有固定的 4 级评分标准(excellent / good / fair / poor),避免 Agent 自由发挥。
  3. Skill 分类只做「选择子集 + 配权重」:不同分类的 Skill 只是从同一池子中挑不同的评分项组合,不是各自拥有一套独立标准。
  4. Evidence-anchored 强制要求:任何评分必须引用被评输出中的原文作为依据。

一、平台统一评分项池(Metric Pool)

共定义 12 个平台级评分项,覆盖笔记生产、学习工具、洞察分析、操作执行四大形态。

M01 - Structure(结构清晰度)

定义:输出物是否使用了清晰、一致的层级结构(标题、列表、分段、表格等),便于快速扫读和理解。

等级 标准
excellent 标题层级严谨(H1-H3 不乱跳),列表、表格、引用使用得当,阅读节奏舒适
good 整体有结构,但个别层级跳跃或格式使用不够统一
fair 有分段和少量列表,但缺乏清晰的层级组织,大段文字堆砌
poor 几乎没有结构,内容一团乱麻,难以定位重点

M02 - Density(信息密度)

定义:内容是否精炼,无冗余废话,同时保留了所有关键信息点。

等级 标准
excellent 每一句话都有信息增量,无重复解释、无口水话,关键信息完整
good 总体精炼,偶有 1-2 句冗余,但关键信息未遗漏
fair 存在明显的凑字数或模板化空话,但未漏掉核心要点
poor 大量废话、重复或空洞表述,甚至遗漏了关键信息

M03 - Links(链接与关联密度)

定义:输出物是否主动建立了与现有笔记/标签/引用的关联,而不是孤立的一页纸。

等级 标准
excellent 主动使用 [[wikilink]]、标签、或明确的笔记标题引用建立了 3 个以上的有效关联
good 建立了 1-2 个有效关联,或明确提到了相关笔记但未形成正式链接
fair 只有零散的提及,没有刻意的关联动作
poor 完全没有提及任何相关笔记或标签

M04 - Actionability(可执行性)

定义:输出物是否包含明确的结论、下一步动作、待办事项或可验证的检查点。

等级 标准
excellent 有清晰的 takeaways、具体的 next steps 或可操作的检查清单(checklist)
good 有结论或建议,但下一步动作不够具体
fair 描述了很多信息,但没有明确的结论或行动指引
poor 流水账式罗列,没有任何结论或下一步

M05 - Fidelity(保真度)

定义:输出物是否忠实反映源材料,没有编造数据、章节、观点或来源。

等级 标准
excellent 所有数据、引用、章节归属都准确无误,能追溯到源材料的具体位置
good 整体准确,个别次要信息存在轻微偏差但不影响核心理解
fair 存在明显的不准确或模糊引用,但未出现核心事实的编造
poor 有编造的数据、章节、来源,或对源材料的核心观点进行了歪曲

M06 - Format Fidelity(格式还原度)

定义:在从外部文件导入/转换的场景下,源文件中的关键格式元素(图片、表格、代码块、列表层级)是否被正确保留。

等级 标准
excellent 图片有占位符/本地引用、表格结构完整、代码块语言标签正确、列表层级未丢失
good 主要格式保留,个别复杂表格或图片处理不够完美
fair 纯文本转换成功,但表格变乱、图片丢失、代码块丢失语言标签
poor 格式严重损坏,几乎只保留了原始文字流

M07 - QA Pair Quality(问答对质量)

定义:在学习工具(如闪卡、教案)中,问题是否能有效触发回忆,答案是否简洁自包含。

等级 标准
excellent 每一个问题都精准指向一个知识点,答案在不看上下文时也能独立理解
good 大部分 Q/A 对质量高,个别问题过于宽泛或答案存在代词依赖
fair 有不少问题可以通过猜测回答,或答案过于冗长
poor 问题与答案不匹配,或答案完全依赖源笔记上下文才能看懂

M08 - Insight Soundness(洞察可信度)

定义:在洞察分析类输出中,结论是否有扎实的跨笔记证据链支撑,推理过程是否合理。

等级 标准
excellent 每个结论都有 2 个以上的笔记原文引用作为证据,推理链条严密
good 主要结论有证据支撑,次要结论为合理推断
fair 有证据但不足以完全支撑结论,或存在过度推断
poor 结论缺乏证据,或引用的笔记原文与结论无关

M09 - Tool-Use Accuracy(工具调用准确度)

定义:在操作执行类 Skill 中,AI 是否调用了正确的工具/命令,参数格式是否正确。

等级 标准
excellent 选对了工具,参数完整且格式完全符合规范
good 工具选对,但个别参数缺失或格式需要小修正
fair 工具选对,但参数有明显错误,可能导致执行失败
poor 选错了工具,或参数格式完全不符合要求

M10 - Task Completeness(任务完整度)

定义:操作执行类 Skill 是否完成了用户请求的全部步骤,没有遗漏关键的确认或收尾动作。

等级 标准
excellent 任务完全完成,包含所有必要的中间步骤和最终确认
good 核心任务完成,但缺少非关键的收尾动作(如未给出简短总结)
fair 完成了部分任务,遗漏了一个关键中间步骤
poor 只完成了任务的开头,或完全没有执行到实质步骤

M11 - Intent Accuracy(意图准确度)

定义:AI 是否正确理解了用户的真实意图,没有误解场景、范围或约束条件。

等级 标准
excellent 完全命中用户意图,包括显式要求和隐式约束
good 命中主要意图,对个别边界条件的理解有轻微偏差
fair 意图理解有偏差,导致输出的范围或方向不完全对
poor 完全误解了用户意图,输出的结果与请求无关

M12 - Routing Accuracy(路由准确度)

定义:Meta 型 Skill 是否将任务正确地路由/推荐给了最合适的下游 Skill。

等级 标准
excellent 选择了最匹配当前场景的下游 Skill,且交接时机恰当
good 选择了可用的下游 Skill,但不是最优解
fair 路由到了一个不太相关的 Skill,或遗漏了必要的 Skill 调用
poor 完全错误的路由,或该调用 Skill 时却没有调用

二、Skill 分类 → 评分项子集映射

不同分类的 Skill 只是从上述 12 个评分项中选择适用的子集,并配置权重。

Archetype A:笔记生产型(Note Producers)

适用评分项:M01, M02, M03, M04, M05, M06(特殊场景)

评分项 权重 备注
M05 Fidelity 25% 核心,必须严格忠于源材料
M01 Structure 20% 输出必须是可长期阅读的结构化文档
M02 Density 20% 信息密度直接影响笔记价值
M03 Links 20% 笔记产品壁垒在于网络化,链接是刚需
M04 Actionability 15% 有明确的 takeaways 即可

特殊规则

  • doc-importer / web-importer 强制增加 M06 Format Fidelity(权重 20%),相应降低 M03 Links 到 10%
  • literature-reader 强制增加学术字段完整性检查(由 assertions 覆盖,不纳入 Judge 维度)

Archetype B:学习工具型(Learning Artifacts)

适用评分项:M01, M02, M04, M07, M03(弱化)

评分项 权重 备注
M07 QA Pair Quality 30% 核心,决定复习材料是否可用
M04 Actionability 25% 学习者必须知道"下一步做什么"
M01 Structure 20% 结构化是记忆辅助的关键
M02 Density 15% 精简是必要的,但不能过度牺牲解释性
M03 Links 10% 有关联更好,但不是核心

特殊规则

  • lecture-focus-extractor:M07 替换为 "考点命中率"(由 assertions 覆盖:检查输出是否包含大纲中的 H2/H3 标题关键词)
  • prerequisite-gap-finder:M04 的细则增加 "修复路径闭环" 检查(缺什么→为什么缺→怎么补→补完怎么验)

Archetype C:洞察分析型(Insight Generators)

适用评分项:M08, M03, M04, M05, M01

评分项 权重 备注
M08 Insight Soundness 30% 核心,没有证据的洞察就是幻觉
M03 Links 25% 关联密度直接决定洞察质量
M04 Actionability 20% 洞察必须可落地
M05 Fidelity 15% 对源笔记的引用必须准确
M01 Structure 10% 报告结构清晰即可

Archetype D:操作执行型(Action/Tool Skills)

适用评分项:M09, M10, M11, M04, M01(弱化)

评分项 权重 备注
M10 Task Completeness 30% 任务有没有真正做完
M09 Tool-Use Accuracy 25% 命令和参数对不对
M11 Intent Accuracy 25% 是否理解了用户的真实意图
M04 Actionability 15% 操作完成后有无给出明确的 next step / 确认
M01 Structure 5% 输出格式整洁即可,非核心

特殊规则

  • wechat-publisher:M10 的终极验收是 "发布成功"(由 assertions 检查返回结果)
  • coding-assistant:M09 替换为 "代码可运行性"(尝试编译/运行生成的代码片段)
  • wps-note-intelligent-search:M10 增加 "搜索结果相关度"(.assertions 检查返回结果中是否包含预期关键词)

Archetype E:Meta / Orchestrator 型

适用评分项:M12, M11, M10

评分项 权重 备注
M12 Routing Accuracy 40% 核心,有没有把任务交给对的人
M11 Intent Accuracy 35% 是否正确理解了用户的复杂意图
M10 Task Completeness 25% 整个工作流是否闭环完成

三、Agent Judge Prompt 的约束规则

在发给 Judge Agent 的 System Prompt 中,必须包含以下绝对禁令:

## JUDGE CONSTRAINTS(绝对禁止以下行为)

1. **禁止发明新的评分维度**。你只能使用平台给定的评分项(M01-M12),不得添加任何未在指令中出现的维度。
2. **禁止修改评分细则**。每个评分项的 excellent/good/fair/poor 定义已由平台写死,你不得自行解释或扩展。
3. **禁止无证据评分**。每一条评分理由必须引用输出原文(直接 quoting 或标注具体段落)。
4. **禁止四舍五入 inflate**。average 水平的输出应该落在 fair-good 之间,不是所有人都给 8 分。
5. **权重不可忽略**。即使某个维度得分低,也要如实反映,不能因为"总体还可以"而掩饰明显缺陷。

四、JSON 输出规范(Judge 输出)

{
  "metadata": {
    "skill_name": "doc-importer",
    "archetype": "producer",
    "evaluated_at": "2026-04-11T..."
  },
  "scores": {
    "M01": { "score": 8, "max": 10, "level": "good", "reason": "...", "evidence": "..." },
    "M02": { "score": 7, "max": 10, "level": "good", "reason": "...", "evidence": "..." },
    "M03": { "score": 9, "max": 10, "level": "excellent", "reason": "...", "evidence": "..." },
    "M04": { "score": 6, "max": 10, "level": "fair", "reason": "...", "evidence": "..." },
    "M05": { "score": 9, "max": 10, "level": "excellent", "reason": "...", "evidence": "..." },
    "M06": { "score": 7, "max": 10, "level": "good", "reason": "...", "evidence": "..." }
  },
  "overall_score": 7.67,
  "weighted_score": 7.80,
  "verdict": "pass | marginal | fail"
}

五、下一步行动

  1. 确认 Metric Pool 和 Archetype 映射:如果我们达成上述共识,这套 12 项标准就成为平台的"宪法级"文件,不再轻易变动。
  2. 为每个 Archetype 编写独立的 Judge Prompt 模板:模板中硬编码该分类使用的评分项和权重,Agent 只负责填空。
  3. 更新 registry.json 生成脚本:自动为每个 Skill 标注 evaluation_archetype
  4. 更新 coverage_scorer.py:按 Archetype 提取不同的 claims 类型,并映射到不同的 Metric 检查清单。