SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees
核心思想
现有多轮智能体 RL 算法(GRPO、GSPO、PPO 等)有一个被忽视的理论缺陷:它们在多轮交互场景下无法同时实现无 critic 和收敛保证。
本文的关键发现:
- GRAE + PPU(即 GRPO/GSPO):结构性偏差破坏了单调改进性质 → 不收敛
- GRAE + REINFORCE:仅在无折扣($\gamma=1$)下收敛 → 多轮场景不适用
- GAE + PPU(即 PPO):收敛但需要 critic 网络(计算开销大)
SeeUPO 的解决方案:将多轮交互建模为顺序执行的多智能体 bandit 问题,每轮是一个虚拟智能体,按逆序($T \to 1$)逐轮更新策略 → 通过反向归纳保证全局最优收敛。
背景知识
为什么多轮 RL 比单轮难
| 维度 | 单轮(RLHF/DPO) | 多轮(智能体 RL) |
|---|---|---|
| 时间步 | $T = 1$ | $T \gg 1$ |
| 信用分配 | 即时奖励 | 延迟、需要跨轮归因 |
| 优势估计 | bandit 设定,简单 | 需要考虑状态转移 |
| 收敛性 | 有保证 | 大多数方法无保证 |
现有方法的收敛性分析
| 组合 | 单轮 | 多轮 | 问题 |
|---|---|---|---|
| GAE + PPU(PPO) | 收敛 | 收敛 | 需要 critic,计算贵 |
| GRAE + REINFORCE(RLOO) | 收敛 | 不收敛 | 需要 $\gamma = 1$ |
| GRAE + PPU(GRPO/GSPO) | 不收敛 | 不收敛 | 结构性偏差 $\Delta(s_t)$ |
关键发现:GRAE 的结构性偏差 $\Delta(s_t) = V(s_t) - V(s_0)$ 无法在 PPU 的 clip 目标中消除 → 破坏单调改进。
方法详解
1. 多智能体建模
将 $T$ 轮交互抽象为 $T$ 个虚拟智能体,共享初始状态 $s_0$:
- 每个智能体 $t$ 的策略:$\pi^t$ 接收 $s_0$ 和之前所有动作 $a^{(1:t-1)}$
- 联合动作:$a^{(1:T)}$ 拼接所有轮次的响应
- 团队奖励:$r(s_0, a^{(1:T)})$ = 最终任务完成度
2. 逆序策略更新(反向归纳)
对轮次 $t$ 按逆序 $T \to T-1 \to \ldots \to 1$ 更新:
\[\hat{\pi}^t_{k+1} = \arg\max_{\bar{\pi}^t \in U} \mathbb{E}\left[\mathbb{E}\left[A^t(s_0, a^t, a^{(t+1:T)})\right] - D^t(\bar{\pi}^t | s_0, \hat{\pi}^{(t+1:T)}_{k+1})\right]\]- $A^t$:轮次 $t$ 的局部优势函数
- $D^t$:drift 函数(策略变化成本)
- 关键:后续轮次使用已更新的策略 $\hat{\pi}^{(t+1:T)}_{k+1}$ → 反向归纳
3. 局部优势函数分解
\[\mathbb{E}[A^t] = \mathbb{E}\left[\left(\frac{\bar{\pi}^t}{\hat{\pi}^t_k} - 1\right) \cdot \frac{\hat{\pi}^{(t+1:T)}_{k+1}}{\hat{\pi}^{(t+1:T)}_k} \cdot \hat{A}(s_0, a^{(1:T)})\right]\]比率 $\hat{\pi}^{(t+1:T)}_{k+1} / \hat{\pi}^{(t+1:T)}_k$ 来自已更新的后续轮次的重要性采样 → 隐式实现轮次级信用分配。
4. 全局优势估计(Bandit 设定)
\[\hat{A}(s_0, a^{(1:T)}) = r(s_0, a^{(1:T)}) - \mathbb{E}[r(s_0, a'^{(1:T)})]\]无需 critic 网络即可得到无偏优势估计。
5. 实际实现(SeeUPPO-GRAE)
梯度更新:
\[\nabla_\theta \mathbb{E}\left[\min\left(r^t(\theta) M^{(t+1)}, \text{clip}(r^t(\theta), 1 \pm \epsilon) M^{(t+1)}\right)\right]\]其中累积重要性采样比率:
\[M^t = \frac{\pi^t_{k+1}}{\pi^t_k} \cdot M^{(t+1)}\]归一化:使用 batch 级(非 group 级)标准化 → 保持 drift 函数性质,维持收敛保证。
6. 理论保证
- 单调改进:继承自 HAML 框架,每次迭代保证联合回报改进
- 全局最优(Theorem 2):逆序更新实现反向归纳 → 更新轮次 $t$ 时,所有 $t+1, \ldots, T$ 已是最优 → 收敛到 $V^*$
实验结果
主要结果
Qwen3-14B(AppWorld):
| 方法 | avg@4 | pass@4 |
|---|---|---|
| GSPO | 32.89% | 52.63% |
| GRPO | 40.35% | 57.89% |
| SeeUPO | 63.60% | 80.70% |
相对提升 43.3%-93.4%。
Qwen2.5-14B(AppWorld):
| 方法 | avg@4 | pass@4 |
|---|---|---|
| GRPO | 35.53% | 49.12% |
| PPO | 40.79% | 57.89% |
| SeeUPO | 50.88% | 70.18% |
相对提升 24.1%-43.3%。
训练稳定性
GRPO 和 GSPO 在 Qwen2.5+AppWorld 上出现灾难性崩溃,而 SeeUPO 保持稳定的单调改进 → 验证了收敛保证的实际价值。
更新顺序消融(Qwen3-14B)
| 更新顺序 | AppWorld avg@4 | BFCL avg@4 |
|---|---|---|
| 逆序(SeeUPO) | 63.60% | 58.00% |
| 正序 | 56.14% | 54.25% |
| 随机 | 33.33% | 51.25% |
逆序 » 正序 » 随机 → 反向归纳原则得到验证。
归一化策略消融
| 策略 | AppWorld avg@4 | 理论保证 |
|---|---|---|
| 无归一化 | 39.91% | 有 |
| Group 级 | 62.35% | 无 |
| Batch 级 | 63.60% | 有 |
Batch 归一化同时实现最佳性能和理论保证。
计算成本
- 训练时间:约为基线的 1.5×(可接受)
- GPU 需求:8 GPU(与 GRPO/GSPO 相同),PPO 需要 16 GPU
个人思考
- “GRPO 在多轮场景下不收敛” 是震撼性发现:GRPO 家族(包括 DAPO、GSPO 等 20+ 变体)是当前最火的 LLM RL 算法,但本文证明它们在多轮智能体场景下有理论缺陷 → 可能解释了很多训练不稳定的经验观察。
- “轮次 = 虚拟智能体” 的抽象非常巧妙:将时序决策问题转化为多智能体 bandit 问题 → 可以用成熟的多智能体 RL 理论(反向归纳)来解。
- 逆序更新的直觉:先优化最后一轮(在其他轮次固定时最简单),然后逐步向前优化 → 类似动态规划从终态出发的思路。
- 随机更新顺序 33.33% 的惨淡结果说明:更新顺序不是”锦上添花”而是成败关键 → 随意的更新顺序可能导致策略互相干扰。
- Batch 归一化 vs Group 归一化的差异容易被忽略:Group 归一化性能接近(62.35% vs 63.60%)但失去收敛保证 → 在大规模训练中这种差异可能导致后期崩溃。