LIMI: Less is More for Agency
核心思想
训练 AI 智能体的常规做法是”越多数据越好”。LIMI 挑战这一范式,提出:
精心策展的少量演示 比海量低质量数据更有效。
78 条精选的高质量演示 → AgencyBench 73.5% 10,000 条普通演示 → AgencyBench 47.8%
仅用 1/128 的数据量,LIMI 超出大规模训练 53.7 个百分点(相对提升)。
背景知识
什么是”智能体能力”(Agency)
不是简单的问答,而是自主发现问题、制定假设、执行方案的能力:
| 维度 | 传统 LLM | 智能体 |
|---|---|---|
| 交互方式 | 单轮问答 | 多轮工具调用 |
| 目标 | 回答问题 | 完成任务 |
| 自主性 | 被动响应 | 主动规划 |
| 环境交互 | 无 | 文件系统、终端、API |
数据效率的先例
| 工作 | 领域 | 样本数 | 核心发现 |
|---|---|---|---|
| LIMA | 对话 | 1,000 | 少量高质量数据足以教会模型对话 |
| LIMO | 推理 | 817 | 少量数据可激活推理能力 |
| LIMI | 智能体 | 78 | 极少数据可激活自主能力 |
为什么大规模数据可能有害
| 数据量 | 优点 | 缺点 |
|---|---|---|
| 大规模 | 覆盖面广 | 噪声多、质量不一、互相矛盾 |
| 极少精选 | 一致性强、模式清晰 | 覆盖面有限 |
关键洞察:智能体需要学习的不是”知识”(预训练已有),而是”行为模式”——高质量示范更能传递正确的行为模式。
方法详解
1. 数据构建框架
1.1 查询定义
每条训练样本的起点是一个自然语言任务描述 $q_i$。
1.2 轨迹形式化
\[\tau_i = \{a_{i,1}, \ldots, a_{i,n_i}\}\]每个动作 $a_{i,j}$ 包含三部分:
- $m_{i,j}$:模型推理(思考过程)
- $t_{i,j}$:工具调用(执行命令、编辑文件等)
- $o_{i,j}$:环境观察(命令输出、文件内容等)
2. 查询池构建(78 条)
2.1 真实世界查询(60 条)
来自专业开发者和研究人员的真实使用场景——不是人造的简单任务,而是实际工作中遇到的复杂问题。
2.2 GitHub PR 合成(18 条)
- 仓库筛选:GitHub Stars > 10,000 的高质量仓库
- 领域多样化:前端、后端、部署、调试、优化
- 复杂度过滤:unified diff < 1,200 token(避免过于简单或复杂)
- 系统化采样:从 PR 中提取任务描述
- GPT-5 生成 + 计算机科学博士生质量审核
3. 轨迹收集协议
| 配置 | 值 |
|---|---|
| 环境 | SII CLI(综合工具集成 + 详细交互日志) |
| 标注员 | 4 名博士生 |
| 基座模型 | GPT-5 |
| 平均轨迹长度 | 42.4K token |
| 最长轨迹 | 152K token |
| 收集方式 | 标注员与 GPT-5 协作,直到成功完成 |
关键:标注员不是单独完成任务,而是与 GPT-5 协作——确保轨迹质量同时保持合理的收集效率。
4. 训练细节
在 GLM-4.5(355B)和 GLM-4.5-Air(106B)上微调,使用标准的指令微调(SFT)流程。
实验结果
AgencyBench 主要结果
| 模型 | 训练样本数 | FTFC | RC@3 | SR@3 | 平均 |
|---|---|---|---|---|---|
| LIMI | 78 | 71.7% | 74.2% | 74.6% | 73.5% |
| GLM-4.5 | — | 37.8% | 50.0% | 47.4% | 45.1% |
| Kimi-K2 | — | 20.7% | 25.1% | 26.6% | 24.1% |
| DeepSeek-V3.1 | — | 10.6% | 11.9% | 13.3% | 11.9% |
| Qwen3-235B | — | 23.0% | 28.2% | 31.3% | 27.5% |
- FTFC(首轮功能完整度):71.7% → 比 GLM-4.5 高 33.9 个百分点
- SR@3(3 轮内成功率):74.6% → 比最强基线高 27.2 个百分点
数据效率对比
| 训练数据 | 样本数 | AgencyBench 平均 |
|---|---|---|
| GLM-4.5-Code | 10,000 | 47.8% |
| GLM-4.5-Web | 7,610 | 36.7% |
| GLM-4.5-CC | 260 | 29.2% |
| LIMI | 78 | 73.5% |
78 条数据 > 10,000 条数据:数据量少 128 倍,性能高 53.7%。
泛化能力
| 基准 | LIMI | GLM-4.5 |
|---|---|---|
| TAU2-Airline | 34.0% | 28.0% |
| TAU2-Retail | 45.6% | 36.8% |
| DS-1000 | 36.6% | 33.6% |
| HumanEval | 92.1% | 90.2% |
| MBPP | 82.3% | 79.6% |
| SciCode-MP | 3.1% | 1.5% |
| SciCode-SP | 25.3% | 25.3% |
| 平均 | 57.2% | 43.0% |
LIMI 在所有泛化基准上都优于或持平 → 78 条数据学到的是通用行为模式,不是任务特定技巧。
跨模型规模验证
| 模型 | 基线 | LIMI 后 | 提升 |
|---|---|---|---|
| GLM-4.5-Air (106B) | 17.0% | 34.3% | +17.3pp |
| GLM-4.5 (355B) | 45.1% | 73.5% | +28.4pp |
两种规模都显著提升 → 方法具有架构鲁棒性。
工具环境的影响
| 条件 | 泛化基准平均 |
|---|---|
| 有 CLI 工具 | 57.2% |
| 无 CLI 工具 | 50.0% |
工具提供 +7.2% 增益,但即使无工具也超过所有基线 → 内在能力确实提升了。
AgencyBench 任务类型
Vibe Coding(4 个任务):
- C++ 多人聊天系统
- Java 任务管理应用(并发 + 持久化)
- 五子棋 AI(minimax + alpha-beta 剪枝)
- 微服务流水线(事件生成、KV 存储、编排、符号规划、自修复)
Research Workflows(6 个任务):
- DynToM 数据集比较
- 统计分析
- 数据集发现和元数据提取
- 科学方程发现
- NBA 复杂统计查询
- 商业财务数据分析
个人思考
- “78 > 10,000” 是震撼性的发现:智能体能力的瓶颈不是数据量,而是数据质量和一致性。大量低质量轨迹中的矛盾行为模式反而会混淆模型。
- 博士生 + GPT-5 协作收集是关键——标注员提供领域知识和质量把控,GPT-5 提供高效执行 → 收集到的轨迹既正确又高效。
- 首轮完整度 71.7% 特别值得注意:LIMI 训练后模型更倾向于一次做对而非反复尝试 → 说明高质量演示教会了”规划再行动”的模式。
- 泛化能力保持(甚至提升)说明 78 条数据没有过拟合 → 它们教会的是通用的智能体行为模式(工具使用、错误处理、迭代改进等)。
- 与 LIMA/LIMO 的类比精确但扩展了边界:LIMA 说”1000 条够做对话”,LIMO 说”817 条够做推理”,LIMI 说”78 条够做智能体”——数据效率随任务抽象层次提升。