Demystifying Reinforcement Learning in Agentic Reasoning
核心思想
智能体 RL(让 LLM 学会调用工具解题)效果好,但为什么好、什么最关键缺乏系统理解。
本文从三个维度系统拆解:
- 数据:真实端到端轨迹 vs 合成拼接轨迹 → 差距巨大
- 算法:clip 放宽 + 超长奖励塑形 → 用 25% 计算量达到更好效果
- 推理模式:深思式少量工具调用 » 频繁短交互
关键成果:4B 模型(DemyAgent-4B)在 AIME2024/2025 上匹敌或超越 14B-32B 模型。
背景知识
智能体推理 vs 纯文本推理
| 维度 | 纯文本推理(CoT) | 智能体推理(工具调用) |
|---|---|---|
| 信息源 | 模型内部知识 | 外部工具(代码执行、搜索等) |
| 能力边界 | 受模型知识限制 | 理论上可解决更广泛问题 |
| RL 训练 | 单轮优化 | 多轮交互,信用分配更难 |
| 探索 | 生成不同推理链 | 工具反馈提供新信息 |
关键术语
| 术语 | 含义 |
|---|---|
| 拼接轨迹 | 将推理步骤手动替换为工具输出 |
| 端到端轨迹 | 模型实际执行的完整交互过程 |
| Clip higher | 放宽 PPO/GRPO 的上界裁剪 |
| 超长奖励塑形 | 对过长输出施加渐进惩罚 |
方法详解
1. 数据维度:真实 vs 合成轨迹
核心发现:真实端到端轨迹远优于合成拼接轨迹。
AIME2025 对比(Qwen3-4B):
| 数据类型 | avg@32 | pass@32 | maj@32 |
|---|---|---|---|
| 真实轨迹 | 29.97% | 72.88% | 45.22% |
| 合成轨迹 | <10% | — | 不稳定 |
为什么真实轨迹好得多:真实轨迹包含调用前分析、防护执行、错误恢复、自我反思等合成数据无法复制的模式。
2. 数据多样性维持探索
高多样性数据集(数学+科学+代码混合)在训练中维持显著更高的策略熵:
- 多样性数据集:150 步内达到 50%+ avg@32
- 纯数学数据集:需要 220 步
- → 更快更高效的学习
3. 模型感知的难度筛选
弱模型需要难度校准的数据集:
- 简单:成功率 $\geq 75\%$
- 中等:成功率 $25\%-75\%$
- 困难:成功率 $\leq 25\%$
根据模型自身能力筛选 → 克服未筛选数据上的性能瓶颈。
4. 算法维度:三种训练配方
| 配方 | 损失 | Clip 策略 | 奖励塑形 |
|---|---|---|---|
| GRPO-T(基线) | token 级 | 标准 $\epsilon = 0.2$ | 无 |
| GRPO-TCR | token 级 | 放宽 $\epsilon_{\text{high}} = 0.28$ | 有 |
| GRPO-SCR | sequence 级 | 放宽 | 有 |
5. 奖励函数设计
复合奖励:
\[r_{\text{out+tool}}(x, y, n) = \begin{cases} 1 + 0.1n & \text{正确} \\ \min(-1 + 0.1n) & \text{错误} \end{cases}\]其中 $n$ = 工具调用次数。
超长惩罚:
\[r_{\text{length}}(y) = \begin{cases} 0 & |y| \leq L_{\max} - L_{\text{cache}} \\ \frac{(L_{\max} - L_{\text{cache}}) - |y|}{L_{\text{cache}}} & L_{\max} - L_{\text{cache}} < |y| \leq L_{\max} \\ -1 & |y| > L_{\max} \end{cases}\]6. 推理模式:深思式 vs 反应式
| 模式 | 工具调用 | 成功率 | 采用者 |
|---|---|---|---|
| 深思式 | 少而精 | >70% | 强模型 |
| 反应式 | 多而短 | 显著更低 | 弱模型 |
发现:最强模型在工具调用前投入更多内部推理 token → 质量优先于数量。
7. Long-CoT 模型的局限
Long-CoT 模型(如 Qwen3-4B-Thinking)有一个关键弱点:在推理密集任务上回避工具调用,完全依赖内部推理 → 工具调用频率在训练中趋近于零。
解决方案:用多轮轨迹做 SFT 初始化,但 instruction 模型最终优于 Long-CoT → instruction 模型能同时发展推理和工具使用。
实验结果
AIME 性能对比
| 模型 | 参数量 | AIME2024 avg@32 | AIME2025 avg@32 |
|---|---|---|---|
| Qwen2.5-7B-Instruct | 7B | 4.8% | 5.6% |
| Qwen3-4B-Instruct | 4B | 17.9% | 16.3% |
| ARPO-7B | 7B | 30.0% | 30.0% |
| ReTool-32B | 32B | 72.5% | 54.3% |
| DemyAgent-4B | 4B | 72.6% | 70.0% |
| rStar2-Agent-14B | 14B | 80.6% | 69.8% |
4B 模型匹敌 32B(ReTool)并接近 14B(rStar2-Agent)。
算法效率对比
| 配方 | AIME2024 avg@32 | AIME2025 avg@32 | 计算量 |
|---|---|---|---|
| GRPO-T | 54.7% | 40.93% | 100% |
| GRPO-TCR | 70.93% | 68.13% | 25% |
| GRPO-SCR | 67.0% | 64.3% | 25% |
GRPO-TCR 用 1/4 计算量达到更好效果。
跨领域基准
| 基准 | DemyAgent-4B |
|---|---|
| GPQA-Diamond | 58.5% |
| LiveCodeBench-v6 | 26.8% |
探索-利用的反直觉发现
传统 RL 中探索抑制利用,但智能体 RL 中两者同时提升:
- GRPO-TCR/SCR:pass@32 和 avg@32 同时提升 10%+
- 原因:工具反馈提供新信息 → 模型”更聪明地思考”而非”更长地思考”
训练配置
| 阶段 | 数据 | Epoch | 学习率 |
|---|---|---|---|
| SFT | 3K 真实轨迹 | 5 | 5e-5 |
| RL | 30K 多样化 | 3 | 1e-6 |
个人思考
- “真实轨迹 vs 合成轨迹”的巨大差距是最实用的发现:很多团队用合成数据做智能体 SFT,本文证明这从根本上低效 → 应该投入更多成本收集真实端到端交互数据。
- 4B 匹敌 32B 说明”小模型 + 好的训练策略 + 工具调用”可以超越”大模型 + 纯推理”→ 工具调用从根本上改变了模型大小的重要性。
- 深思式 > 反应式的发现与人类直觉一致:与其频繁试错,不如想清楚再行动 → 但如何引导模型从反应式转向深思式仍是开放问题。
- Clip 放宽(0.2→0.28)+ 超长惩罚用 25% 计算量提升 16pp → 这类”简单但有效”的工程改进往往被忽视,但对实际训练效率影响巨大。
- Long-CoT 模型回避工具调用是重要的负面发现:强大的内部推理能力反而阻碍了工具使用的学习 → 提示我们不应该盲目追求”先学推理再加工具”的范式。