← 返回列表

LIMI: Less is More for Agency

作者 Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Pengfei Liu

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签 AI智能体数据效率微调训练

摘要仅 78 条精选演示训练出超越万级数据模型的智能体：AgencyBench 73.5%，比 10000 条数据训练高 53.7pp，数据策展 > 数据规模

论文原文代码仓库

核心思想

训练 AI 智能体的常规做法是”越多数据越好”。LIMI 挑战这一范式，提出：

精心策展的少量演示 比海量低质量数据更有效。

78 条精选的高质量演示 → AgencyBench 73.5% 10,000 条普通演示 → AgencyBench 47.8%

仅用 1/128 的数据量，LIMI 超出大规模训练 53.7 个百分点（相对提升）。

背景知识

什么是”智能体能力”（Agency）

不是简单的问答，而是自主发现问题、制定假设、执行方案的能力：

维度	传统 LLM	智能体
交互方式	单轮问答	多轮工具调用
目标	回答问题	完成任务
自主性	被动响应	主动规划
环境交互	无	文件系统、终端、API

数据效率的先例

工作	领域	样本数	核心发现
LIMA	对话	1,000	少量高质量数据足以教会模型对话
LIMO	推理	817	少量数据可激活推理能力
LIMI	智能体	78	极少数据可激活自主能力

为什么大规模数据可能有害

数据量	优点	缺点
大规模	覆盖面广	噪声多、质量不一、互相矛盾
极少精选	一致性强、模式清晰	覆盖面有限

关键洞察：智能体需要学习的不是”知识”（预训练已有），而是”行为模式”——高质量示范更能传递正确的行为模式。

方法详解

1. 数据构建框架

1.1 查询定义

每条训练样本的起点是一个自然语言任务描述 $q_i$。

1.2 轨迹形式化

\[\tau_i = \{a_{i,1}, \ldots, a_{i,n_i}\}\]

每个动作 $a_{i,j}$ 包含三部分：

$m_{i,j}$：模型推理（思考过程）
$t_{i,j}$：工具调用（执行命令、编辑文件等）
$o_{i,j}$：环境观察（命令输出、文件内容等）

2. 查询池构建（78 条）

2.1 真实世界查询（60 条）

来自专业开发者和研究人员的真实使用场景——不是人造的简单任务，而是实际工作中遇到的复杂问题。

2.2 GitHub PR 合成（18 条）

仓库筛选：GitHub Stars > 10,000 的高质量仓库
领域多样化：前端、后端、部署、调试、优化
复杂度过滤：unified diff < 1,200 token（避免过于简单或复杂）
系统化采样：从 PR 中提取任务描述
GPT-5 生成 + 计算机科学博士生质量审核

3. 轨迹收集协议

配置	值
环境	SII CLI（综合工具集成 + 详细交互日志）
标注员	4 名博士生
基座模型	GPT-5
平均轨迹长度	42.4K token
最长轨迹	152K token
收集方式	标注员与 GPT-5 协作，直到成功完成

关键：标注员不是单独完成任务，而是与 GPT-5 协作——确保轨迹质量同时保持合理的收集效率。

4. 训练细节

在 GLM-4.5（355B）和 GLM-4.5-Air（106B）上微调，使用标准的指令微调（SFT）流程。

实验结果

AgencyBench 主要结果

模型	训练样本数	FTFC	RC@3	SR@3	平均
LIMI	78	71.7%	74.2%	74.6%	73.5%
GLM-4.5	—	37.8%	50.0%	47.4%	45.1%
Kimi-K2	—	20.7%	25.1%	26.6%	24.1%
DeepSeek-V3.1	—	10.6%	11.9%	13.3%	11.9%
Qwen3-235B	—	23.0%	28.2%	31.3%	27.5%

FTFC（首轮功能完整度）：71.7% → 比 GLM-4.5 高 33.9 个百分点
SR@3（3 轮内成功率）：74.6% → 比最强基线高 27.2 个百分点

数据效率对比

训练数据	样本数	AgencyBench 平均
GLM-4.5-Code	10,000	47.8%
GLM-4.5-Web	7,610	36.7%
GLM-4.5-CC	260	29.2%
LIMI	78	73.5%

78 条数据 > 10,000 条数据：数据量少 128 倍，性能高 53.7%。

泛化能力

基准	LIMI	GLM-4.5
TAU2-Airline	34.0%	28.0%
TAU2-Retail	45.6%	36.8%
DS-1000	36.6%	33.6%
HumanEval	92.1%	90.2%
MBPP	82.3%	79.6%
SciCode-MP	3.1%	1.5%
SciCode-SP	25.3%	25.3%
平均	57.2%	43.0%

LIMI 在所有泛化基准上都优于或持平 → 78 条数据学到的是通用行为模式，不是任务特定技巧。

跨模型规模验证

模型	基线	LIMI 后	提升
GLM-4.5-Air (106B)	17.0%	34.3%	+17.3pp
GLM-4.5 (355B)	45.1%	73.5%	+28.4pp

两种规模都显著提升 → 方法具有架构鲁棒性。

工具环境的影响

条件	泛化基准平均
有 CLI 工具	57.2%
无 CLI 工具	50.0%

工具提供 +7.2% 增益，但即使无工具也超过所有基线 → 内在能力确实提升了。

AgencyBench 任务类型

Vibe Coding（4 个任务）：

C++ 多人聊天系统
Java 任务管理应用（并发 + 持久化）
五子棋 AI（minimax + alpha-beta 剪枝）
微服务流水线（事件生成、KV 存储、编排、符号规划、自修复）

Research Workflows（6 个任务）：

DynToM 数据集比较
统计分析
数据集发现和元数据提取
科学方程发现
NBA 复杂统计查询
商业财务数据分析

个人思考

“78 > 10,000” 是震撼性的发现：智能体能力的瓶颈不是数据量，而是数据质量和一致性。大量低质量轨迹中的矛盾行为模式反而会混淆模型。
博士生 + GPT-5 协作收集是关键——标注员提供领域知识和质量把控，GPT-5 提供高效执行 → 收集到的轨迹既正确又高效。
首轮完整度 71.7% 特别值得注意：LIMI 训练后模型更倾向于一次做对而非反复尝试 → 说明高质量演示教会了”规划再行动”的模式。
泛化能力保持（甚至提升）说明 78 条数据没有过拟合 → 它们教会的是通用的智能体行为模式（工具使用、错误处理、迭代改进等）。
与 LIMA/LIMO 的类比精确但扩展了边界：LIMA 说”1000 条够做对话”，LIMO 说”817 条够做推理”，LIMI 说”78 条够做智能体”——数据效率随任务抽象层次提升。

← 返回列表