← 返回列表

LIMI: Less is More for Agency

作者 Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Pengfei Liu
年份 2025
会议/期刊 arXiv 2025
评分
标签 AI智能体 数据效率 微调训练
摘要 仅 78 条精选演示训练出超越万级数据模型的智能体:AgencyBench 73.5%,比 10000 条数据训练高 53.7pp,数据策展 > 数据规模

核心思想

训练 AI 智能体的常规做法是”越多数据越好”。LIMI 挑战这一范式,提出:

精心策展的少量演示 比海量低质量数据更有效。

78 条精选的高质量演示 → AgencyBench 73.5% 10,000 条普通演示 → AgencyBench 47.8%

仅用 1/128 的数据量,LIMI 超出大规模训练 53.7 个百分点(相对提升)。

背景知识

什么是”智能体能力”(Agency)

不是简单的问答,而是自主发现问题、制定假设、执行方案的能力:

维度 传统 LLM 智能体
交互方式 单轮问答 多轮工具调用
目标 回答问题 完成任务
自主性 被动响应 主动规划
环境交互 文件系统、终端、API

数据效率的先例

工作 领域 样本数 核心发现
LIMA 对话 1,000 少量高质量数据足以教会模型对话
LIMO 推理 817 少量数据可激活推理能力
LIMI 智能体 78 极少数据可激活自主能力

为什么大规模数据可能有害

数据量 优点 缺点
大规模 覆盖面广 噪声多、质量不一、互相矛盾
极少精选 一致性强、模式清晰 覆盖面有限

关键洞察:智能体需要学习的不是”知识”(预训练已有),而是”行为模式”——高质量示范更能传递正确的行为模式。

方法详解

1. 数据构建框架

1.1 查询定义

每条训练样本的起点是一个自然语言任务描述 $q_i$。

1.2 轨迹形式化

\[\tau_i = \{a_{i,1}, \ldots, a_{i,n_i}\}\]

每个动作 $a_{i,j}$ 包含三部分:

  • $m_{i,j}$:模型推理(思考过程)
  • $t_{i,j}$:工具调用(执行命令、编辑文件等)
  • $o_{i,j}$:环境观察(命令输出、文件内容等)

2. 查询池构建(78 条)

2.1 真实世界查询(60 条)

来自专业开发者和研究人员的真实使用场景——不是人造的简单任务,而是实际工作中遇到的复杂问题。

2.2 GitHub PR 合成(18 条)

  1. 仓库筛选:GitHub Stars > 10,000 的高质量仓库
  2. 领域多样化:前端、后端、部署、调试、优化
  3. 复杂度过滤:unified diff < 1,200 token(避免过于简单或复杂)
  4. 系统化采样:从 PR 中提取任务描述
  5. GPT-5 生成 + 计算机科学博士生质量审核

3. 轨迹收集协议

配置
环境 SII CLI(综合工具集成 + 详细交互日志)
标注员 4 名博士生
基座模型 GPT-5
平均轨迹长度 42.4K token
最长轨迹 152K token
收集方式 标注员与 GPT-5 协作,直到成功完成

关键:标注员不是单独完成任务,而是与 GPT-5 协作——确保轨迹质量同时保持合理的收集效率。

4. 训练细节

在 GLM-4.5(355B)和 GLM-4.5-Air(106B)上微调,使用标准的指令微调(SFT)流程。

实验结果

AgencyBench 主要结果

模型 训练样本数 FTFC RC@3 SR@3 平均
LIMI 78 71.7% 74.2% 74.6% 73.5%
GLM-4.5 37.8% 50.0% 47.4% 45.1%
Kimi-K2 20.7% 25.1% 26.6% 24.1%
DeepSeek-V3.1 10.6% 11.9% 13.3% 11.9%
Qwen3-235B 23.0% 28.2% 31.3% 27.5%
  • FTFC(首轮功能完整度):71.7% → 比 GLM-4.5 高 33.9 个百分点
  • SR@3(3 轮内成功率):74.6% → 比最强基线高 27.2 个百分点

数据效率对比

训练数据 样本数 AgencyBench 平均
GLM-4.5-Code 10,000 47.8%
GLM-4.5-Web 7,610 36.7%
GLM-4.5-CC 260 29.2%
LIMI 78 73.5%

78 条数据 > 10,000 条数据:数据量少 128 倍,性能高 53.7%。

泛化能力

基准 LIMI GLM-4.5
TAU2-Airline 34.0% 28.0%
TAU2-Retail 45.6% 36.8%
DS-1000 36.6% 33.6%
HumanEval 92.1% 90.2%
MBPP 82.3% 79.6%
SciCode-MP 3.1% 1.5%
SciCode-SP 25.3% 25.3%
平均 57.2% 43.0%

LIMI 在所有泛化基准上都优于或持平 → 78 条数据学到的是通用行为模式,不是任务特定技巧。

跨模型规模验证

模型 基线 LIMI 后 提升
GLM-4.5-Air (106B) 17.0% 34.3% +17.3pp
GLM-4.5 (355B) 45.1% 73.5% +28.4pp

两种规模都显著提升 → 方法具有架构鲁棒性

工具环境的影响

条件 泛化基准平均
有 CLI 工具 57.2%
无 CLI 工具 50.0%

工具提供 +7.2% 增益,但即使无工具也超过所有基线 → 内在能力确实提升了

AgencyBench 任务类型

Vibe Coding(4 个任务)

  • C++ 多人聊天系统
  • Java 任务管理应用(并发 + 持久化)
  • 五子棋 AI(minimax + alpha-beta 剪枝)
  • 微服务流水线(事件生成、KV 存储、编排、符号规划、自修复)

Research Workflows(6 个任务)

  • DynToM 数据集比较
  • 统计分析
  • 数据集发现和元数据提取
  • 科学方程发现
  • NBA 复杂统计查询
  • 商业财务数据分析

个人思考

  1. “78 > 10,000” 是震撼性的发现:智能体能力的瓶颈不是数据量,而是数据质量和一致性。大量低质量轨迹中的矛盾行为模式反而会混淆模型。
  2. 博士生 + GPT-5 协作收集是关键——标注员提供领域知识和质量把控,GPT-5 提供高效执行 → 收集到的轨迹既正确又高效。
  3. 首轮完整度 71.7% 特别值得注意:LIMI 训练后模型更倾向于一次做对而非反复尝试 → 说明高质量演示教会了”规划再行动”的模式。
  4. 泛化能力保持(甚至提升)说明 78 条数据没有过拟合 → 它们教会的是通用的智能体行为模式(工具使用、错误处理、迭代改进等)。
  5. 与 LIMA/LIMO 的类比精确但扩展了边界:LIMA 说”1000 条够做对话”,LIMO 说”817 条够做推理”,LIMI 说”78 条够做智能体”——数据效率随任务抽象层次提升。
← 返回列表