src-SLM-平台级评分项池设计

来源 slm skill 评测平台设计来源数 1 Sat Apr 11 2026 08:00:00 GMT+0800 (China Standard Time)

src-SLM-平台级评分项池设计

原始来源： raw/project-docs/SLM-平台级评分项池设计.md
作者： 水的离子积
日期： 2026-04-11

一句话摘要

定义了 12 个平台统一评分项（M01-M12），作为所有 Agent Judge 的「宪法级」标准，禁止临时发明维度或修改细则。

关键收获

平台统一定义：任何 Agent Judge 不得临时发明新维度，只能从 M01-M12 中选择。
12 项评分池：Structure、Density、Links、Actionability、Fidelity、Format Fidelity、QA Pair Quality、Insight Soundness、Tool-Use Accuracy、Task Completeness、Intent Accuracy、Routing Accuracy。
4 级评分标准：每个评分项都有 excellent / good / fair / poor 的固定定义，避免 Agent 自由发挥。
Evidence-anchored：任何评分必须引用被评输出中的原文作为依据。
分类只是子集+权重：不同 Skill 分类从同一池子中挑选适用的评分项组合。

提及的概念

skill-creator
note_judge
coverage_scorer