src-SLM-平台级评分项池设计

来源 slm skill 评测 平台设计 来源数 1 Sat Apr 11 2026 08:00:00 GMT+0800 (China Standard Time)

src-SLM-平台级评分项池设计

原始来源: raw/project-docs/SLM-平台级评分项池设计.md
作者: 水的离子积
日期: 2026-04-11

一句话摘要

定义了 12 个平台统一评分项(M01-M12),作为所有 Agent Judge 的「宪法级」标准,禁止临时发明维度或修改细则。

关键收获

  1. 平台统一定义:任何 Agent Judge 不得临时发明新维度,只能从 M01-M12 中选择。
  2. 12 项评分池:Structure、Density、Links、Actionability、Fidelity、Format Fidelity、QA Pair Quality、Insight Soundness、Tool-Use Accuracy、Task Completeness、Intent Accuracy、Routing Accuracy。
  3. 4 级评分标准:每个评分项都有 excellent / good / fair / poor 的固定定义,避免 Agent 自由发挥。
  4. Evidence-anchored:任何评分必须引用被评输出中的原文作为依据。
  5. 分类只是子集+权重:不同 Skill 分类从同一池子中挑选适用的评分项组合。

提及的概念