src-SLM-平台级评分项池设计
来源 slm skill 评测 平台设计
来源数 1 Sat Apr 11 2026 08:00:00 GMT+0800 (China Standard Time)
src-SLM-平台级评分项池设计
原始来源: raw/project-docs/SLM-平台级评分项池设计.md
作者: 水的离子积
日期: 2026-04-11
一句话摘要
定义了 12 个平台统一评分项(M01-M12),作为所有 Agent Judge 的「宪法级」标准,禁止临时发明维度或修改细则。
关键收获
- 平台统一定义:任何 Agent Judge 不得临时发明新维度,只能从 M01-M12 中选择。
- 12 项评分池:Structure、Density、Links、Actionability、Fidelity、Format Fidelity、QA Pair Quality、Insight Soundness、Tool-Use Accuracy、Task Completeness、Intent Accuracy、Routing Accuracy。
- 4 级评分标准:每个评分项都有 excellent / good / fair / poor 的固定定义,避免 Agent 自由发挥。
- Evidence-anchored:任何评分必须引用被评输出中的原文作为依据。
- 分类只是子集+权重:不同 Skill 分类从同一池子中挑选适用的评分项组合。
提及的概念
- skill-creator
note_judgecoverage_scorer