← 返回列表

Demystifying Reinforcement Learning in Agentic Reasoning

作者 Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签智能体强化学习工具使用

摘要智能体 RL 的系统性拆解：真实轨迹 vs 合成轨迹（差距巨大）+ clip 放宽 + 超长奖励塑形 + 深思式推理优于频繁调用，4B 模型匹敌 14B-32B

论文原文代码仓库

核心思想

智能体 RL（让 LLM 学会调用工具解题）效果好，但为什么好、什么最关键缺乏系统理解。

本文从三个维度系统拆解：

数据：真实端到端轨迹 vs 合成拼接轨迹 → 差距巨大
算法：clip 放宽 + 超长奖励塑形 → 用 25% 计算量达到更好效果
推理模式：深思式少量工具调用 » 频繁短交互

关键成果：4B 模型（DemyAgent-4B）在 AIME2024/2025 上匹敌或超越 14B-32B 模型。

背景知识

智能体推理 vs 纯文本推理

维度	纯文本推理（CoT）	智能体推理（工具调用）
信息源	模型内部知识	外部工具（代码执行、搜索等）
能力边界	受模型知识限制	理论上可解决更广泛问题
RL 训练	单轮优化	多轮交互，信用分配更难
探索	生成不同推理链	工具反馈提供新信息

关键术语

术语	含义
拼接轨迹	将推理步骤手动替换为工具输出
端到端轨迹	模型实际执行的完整交互过程
Clip higher	放宽 PPO/GRPO 的上界裁剪
超长奖励塑形	对过长输出施加渐进惩罚

方法详解

1. 数据维度：真实 vs 合成轨迹

核心发现：真实端到端轨迹远优于合成拼接轨迹。

AIME2025 对比（Qwen3-4B）：

数据类型	avg@32	pass@32	maj@32
真实轨迹	29.97%	72.88%	45.22%
合成轨迹	<10%	—	不稳定

为什么真实轨迹好得多：真实轨迹包含调用前分析、防护执行、错误恢复、自我反思等合成数据无法复制的模式。

2. 数据多样性维持探索

高多样性数据集（数学+科学+代码混合）在训练中维持显著更高的策略熵：

多样性数据集：150 步内达到 50%+ avg@32
纯数学数据集：需要 220 步
→ 更快更高效的学习

3. 模型感知的难度筛选

弱模型需要难度校准的数据集：

简单：成功率 $\geq 75\%$
中等：成功率 $25\%-75\%$
困难：成功率 $\leq 25\%$

根据模型自身能力筛选 → 克服未筛选数据上的性能瓶颈。

4. 算法维度：三种训练配方

配方	损失	Clip 策略	奖励塑形
GRPO-T（基线）	token 级	标准 $\epsilon = 0.2$	无
GRPO-TCR	token 级	放宽 $\epsilon_{\text{high}} = 0.28$	有
GRPO-SCR	sequence 级	放宽	有

5. 奖励函数设计

复合奖励：

\[r_{\text{out+tool}}(x, y, n) = \begin{cases} 1 + 0.1n & \text{正确} \\ \min(-1 + 0.1n) & \text{错误} \end{cases}\]

其中 $n$ = 工具调用次数。

超长惩罚：

\[r_{\text{length}}(y) = \begin{cases} 0 & |y| \leq L_{\max} - L_{\text{cache}} \\ \frac{(L_{\max} - L_{\text{cache}}) - |y|}{L_{\text{cache}}} & L_{\max} - L_{\text{cache}} < |y| \leq L_{\max} \\ -1 & |y| > L_{\max} \end{cases}\]

6. 推理模式：深思式 vs 反应式

模式	工具调用	成功率	采用者
深思式	少而精	>70%	强模型
反应式	多而短	显著更低	弱模型

发现：最强模型在工具调用前投入更多内部推理 token → 质量优先于数量。

7. Long-CoT 模型的局限

Long-CoT 模型（如 Qwen3-4B-Thinking）有一个关键弱点：在推理密集任务上回避工具调用，完全依赖内部推理 → 工具调用频率在训练中趋近于零。

解决方案：用多轮轨迹做 SFT 初始化，但 instruction 模型最终优于 Long-CoT → instruction 模型能同时发展推理和工具使用。

实验结果

AIME 性能对比

模型	参数量	AIME2024 avg@32	AIME2025 avg@32
Qwen2.5-7B-Instruct	7B	4.8%	5.6%
Qwen3-4B-Instruct	4B	17.9%	16.3%
ARPO-7B	7B	30.0%	30.0%
ReTool-32B	32B	72.5%	54.3%
DemyAgent-4B	4B	72.6%	70.0%
rStar2-Agent-14B	14B	80.6%	69.8%

4B 模型匹敌 32B（ReTool）并接近 14B（rStar2-Agent）。

算法效率对比

配方	AIME2024 avg@32	AIME2025 avg@32	计算量
GRPO-T	54.7%	40.93%	100%
GRPO-TCR	70.93%	68.13%	25%
GRPO-SCR	67.0%	64.3%	25%

GRPO-TCR 用 1/4 计算量达到更好效果。

跨领域基准

基准	DemyAgent-4B
GPQA-Diamond	58.5%
LiveCodeBench-v6	26.8%

探索-利用的反直觉发现

传统 RL 中探索抑制利用，但智能体 RL 中两者同时提升：

GRPO-TCR/SCR：pass@32 和 avg@32 同时提升 10%+
原因：工具反馈提供新信息 → 模型”更聪明地思考”而非”更长地思考”

训练配置

阶段	数据	Epoch	学习率
SFT	3K 真实轨迹	5	5e-5
RL	30K 多样化	3	1e-6

个人思考

“真实轨迹 vs 合成轨迹”的巨大差距是最实用的发现：很多团队用合成数据做智能体 SFT，本文证明这从根本上低效 → 应该投入更多成本收集真实端到端交互数据。
4B 匹敌 32B 说明”小模型 + 好的训练策略 + 工具调用”可以超越”大模型 + 纯推理”→ 工具调用从根本上改变了模型大小的重要性。
深思式 > 反应式的发现与人类直觉一致：与其频繁试错，不如想清楚再行动 → 但如何引导模型从反应式转向深思式仍是开放问题。
Clip 放宽（0.2→0.28）+ 超长惩罚用 25% 计算量提升 16pp → 这类”简单但有效”的工程改进往往被忽视，但对实际训练效率影响巨大。
Long-CoT 模型回避工具调用是重要的负面发现：强大的内部推理能力反而阻碍了工具使用的学习 → 提示我们不应该盲目追求”先学推理再加工具”的范式。

← 返回列表