← 返回列表

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

作者 Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding
年份 2026
会议/期刊 arXiv 2026
评分
标签 智能体 强化学习 收敛保证
摘要 多轮智能体 RL 的收敛性保证:证明 GRPO+PPO 在多轮场景下收敛性被破坏,提出逆序逐轮更新的 SeeUPO(反向归纳),Qwen3-14B 相对提升 43-55%

核心思想

现有多轮智能体 RL 算法(GRPO、GSPO、PPO 等)有一个被忽视的理论缺陷:它们在多轮交互场景下无法同时实现无 critic 和收敛保证

本文的关键发现:

  • GRAE + PPU(即 GRPO/GSPO):结构性偏差破坏了单调改进性质 → 不收敛
  • GRAE + REINFORCE:仅在无折扣($\gamma=1$)下收敛 → 多轮场景不适用
  • GAE + PPU(即 PPO):收敛但需要 critic 网络(计算开销大)

SeeUPO 的解决方案:将多轮交互建模为顺序执行的多智能体 bandit 问题,每轮是一个虚拟智能体,按逆序($T \to 1$)逐轮更新策略 → 通过反向归纳保证全局最优收敛

背景知识

为什么多轮 RL 比单轮难

维度 单轮(RLHF/DPO) 多轮(智能体 RL)
时间步 $T = 1$ $T \gg 1$
信用分配 即时奖励 延迟、需要跨轮归因
优势估计 bandit 设定,简单 需要考虑状态转移
收敛性 有保证 大多数方法无保证

现有方法的收敛性分析

组合 单轮 多轮 问题
GAE + PPU(PPO) 收敛 收敛 需要 critic,计算贵
GRAE + REINFORCE(RLOO) 收敛 不收敛 需要 $\gamma = 1$
GRAE + PPU(GRPO/GSPO) 不收敛 不收敛 结构性偏差 $\Delta(s_t)$

关键发现:GRAE 的结构性偏差 $\Delta(s_t) = V(s_t) - V(s_0)$ 无法在 PPU 的 clip 目标中消除 → 破坏单调改进。

方法详解

1. 多智能体建模

将 $T$ 轮交互抽象为 $T$ 个虚拟智能体,共享初始状态 $s_0$:

  • 每个智能体 $t$ 的策略:$\pi^t$ 接收 $s_0$ 和之前所有动作 $a^{(1:t-1)}$
  • 联合动作:$a^{(1:T)}$ 拼接所有轮次的响应
  • 团队奖励:$r(s_0, a^{(1:T)})$ = 最终任务完成度

2. 逆序策略更新(反向归纳)

对轮次 $t$ 按逆序 $T \to T-1 \to \ldots \to 1$ 更新:

\[\hat{\pi}^t_{k+1} = \arg\max_{\bar{\pi}^t \in U} \mathbb{E}\left[\mathbb{E}\left[A^t(s_0, a^t, a^{(t+1:T)})\right] - D^t(\bar{\pi}^t | s_0, \hat{\pi}^{(t+1:T)}_{k+1})\right]\]
  • $A^t$:轮次 $t$ 的局部优势函数
  • $D^t$:drift 函数(策略变化成本)
  • 关键:后续轮次使用已更新的策略 $\hat{\pi}^{(t+1:T)}_{k+1}$ → 反向归纳

3. 局部优势函数分解

\[\mathbb{E}[A^t] = \mathbb{E}\left[\left(\frac{\bar{\pi}^t}{\hat{\pi}^t_k} - 1\right) \cdot \frac{\hat{\pi}^{(t+1:T)}_{k+1}}{\hat{\pi}^{(t+1:T)}_k} \cdot \hat{A}(s_0, a^{(1:T)})\right]\]

比率 $\hat{\pi}^{(t+1:T)}_{k+1} / \hat{\pi}^{(t+1:T)}_k$ 来自已更新的后续轮次的重要性采样 → 隐式实现轮次级信用分配

4. 全局优势估计(Bandit 设定)

\[\hat{A}(s_0, a^{(1:T)}) = r(s_0, a^{(1:T)}) - \mathbb{E}[r(s_0, a'^{(1:T)})]\]

无需 critic 网络即可得到无偏优势估计。

5. 实际实现(SeeUPPO-GRAE)

梯度更新

\[\nabla_\theta \mathbb{E}\left[\min\left(r^t(\theta) M^{(t+1)}, \text{clip}(r^t(\theta), 1 \pm \epsilon) M^{(t+1)}\right)\right]\]

其中累积重要性采样比率:

\[M^t = \frac{\pi^t_{k+1}}{\pi^t_k} \cdot M^{(t+1)}\]

归一化:使用 batch 级(非 group 级)标准化 → 保持 drift 函数性质,维持收敛保证。

6. 理论保证

  1. 单调改进:继承自 HAML 框架,每次迭代保证联合回报改进
  2. 全局最优(Theorem 2):逆序更新实现反向归纳 → 更新轮次 $t$ 时,所有 $t+1, \ldots, T$ 已是最优 → 收敛到 $V^*$

实验结果

主要结果

Qwen3-14B(AppWorld)

方法 avg@4 pass@4
GSPO 32.89% 52.63%
GRPO 40.35% 57.89%
SeeUPO 63.60% 80.70%

相对提升 43.3%-93.4%

Qwen2.5-14B(AppWorld)

方法 avg@4 pass@4
GRPO 35.53% 49.12%
PPO 40.79% 57.89%
SeeUPO 50.88% 70.18%

相对提升 24.1%-43.3%

训练稳定性

GRPO 和 GSPO 在 Qwen2.5+AppWorld 上出现灾难性崩溃,而 SeeUPO 保持稳定的单调改进 → 验证了收敛保证的实际价值。

更新顺序消融(Qwen3-14B)

更新顺序 AppWorld avg@4 BFCL avg@4
逆序(SeeUPO) 63.60% 58.00%
正序 56.14% 54.25%
随机 33.33% 51.25%

逆序 » 正序 » 随机 → 反向归纳原则得到验证。

归一化策略消融

策略 AppWorld avg@4 理论保证
无归一化 39.91%
Group 级 62.35%
Batch 级 63.60%

Batch 归一化同时实现最佳性能和理论保证

计算成本

  • 训练时间:约为基线的 1.5×(可接受)
  • GPU 需求:8 GPU(与 GRPO/GSPO 相同),PPO 需要 16 GPU

个人思考

  1. “GRPO 在多轮场景下不收敛” 是震撼性发现:GRPO 家族(包括 DAPO、GSPO 等 20+ 变体)是当前最火的 LLM RL 算法,但本文证明它们在多轮智能体场景下有理论缺陷 → 可能解释了很多训练不稳定的经验观察。
  2. “轮次 = 虚拟智能体” 的抽象非常巧妙:将时序决策问题转化为多智能体 bandit 问题 → 可以用成熟的多智能体 RL 理论(反向归纳)来解。
  3. 逆序更新的直觉:先优化最后一轮(在其他轮次固定时最简单),然后逐步向前优化 → 类似动态规划从终态出发的思路。
  4. 随机更新顺序 33.33% 的惨淡结果说明:更新顺序不是”锦上添花”而是成败关键 → 随意的更新顺序可能导致策略互相干扰。
  5. Batch 归一化 vs Group 归一化的差异容易被忽略:Group 归一化性能接近(62.35% vs 63.60%)但失去收敛保证 → 在大规模训练中这种差异可能导致后期崩溃。
← 返回列表