数据飞轮

概念 ai 模型进化 数据 方法论 来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)

数据飞轮

模型自我进化的核心引擎:Agent 在真实环境中执行任务 → 获得用户反馈 → 产生高质量数据 → 模型基于这些数据变强 → 完成更复杂的任务 → 获得更多样数据。

飞轮循环

模型 → Agent 产品 → 用户交互/反馈 → 高质量数据 → 训练更强的模型
     ↑___________________________________________________________↓

高质量数据的来源

在 vibe coding 等场景中,用户的每一次纠正都是宝贵数据:

  • 起始 prompt 是什么
  • Agent 做了什么、思考了什么、规划了什么
  • 调用了什么工具
  • 产生了什么结果
  • 用户对过程的纠正和不满意

关键判断

「我们最开始讲模型训练说的是算力、算法、数据,到现在,数据是最重要的。」—— Kenny肯尼

与物理世界的 Token 化

Kenny肯尼 进一步指出:物理世界的事件和数字流程正在被 token 化,Agent 基于这些 token 作为 context 进行规划、调用工具、完成任务,再产出更多数据喂回模型。这条路在 coding 领域已经跑通,正逐渐向其他行业泛化。

来源