数据飞轮
概念 ai 模型进化 数据 方法论
来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)
数据飞轮
模型自我进化的核心引擎:Agent 在真实环境中执行任务 → 获得用户反馈 → 产生高质量数据 → 模型基于这些数据变强 → 完成更复杂的任务 → 获得更多样数据。
飞轮循环
模型 → Agent 产品 → 用户交互/反馈 → 高质量数据 → 训练更强的模型
↑___________________________________________________________↓
高质量数据的来源
在 vibe coding 等场景中,用户的每一次纠正都是宝贵数据:
- 起始 prompt 是什么
- Agent 做了什么、思考了什么、规划了什么
- 调用了什么工具
- 产生了什么结果
- 用户对过程的纠正和不满意
关键判断
「我们最开始讲模型训练说的是算力、算法、数据,到现在,数据是最重要的。」—— Kenny肯尼
与物理世界的 Token 化
Kenny肯尼 进一步指出:物理世界的事件和数字流程正在被 token 化,Agent 基于这些 token 作为 context 进行规划、调用工具、完成任务,再产出更多数据喂回模型。这条路在 coding 领域已经跑通,正逐渐向其他行业泛化。