← 返回列表

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

作者 Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding

年份 2026

会议/期刊 arXiv 2026

评分 ★ ★ ★ ★ ★

标签智能体强化学习收敛保证

摘要多轮智能体 RL 的收敛性保证：证明 GRPO+PPO 在多轮场景下收敛性被破坏，提出逆序逐轮更新的 SeeUPO（反向归纳），Qwen3-14B 相对提升 43-55%

论文原文代码仓库

核心思想

现有多轮智能体 RL 算法（GRPO、GSPO、PPO 等）有一个被忽视的理论缺陷：它们在多轮交互场景下无法同时实现无 critic 和收敛保证。

本文的关键发现：

GRAE + PPU（即 GRPO/GSPO）：结构性偏差破坏了单调改进性质 → 不收敛
GRAE + REINFORCE：仅在无折扣（$\gamma=1$）下收敛 → 多轮场景不适用
GAE + PPU（即 PPO）：收敛但需要 critic 网络（计算开销大）

SeeUPO 的解决方案：将多轮交互建模为顺序执行的多智能体 bandit 问题，每轮是一个虚拟智能体，按逆序（$T \to 1$）逐轮更新策略 → 通过反向归纳保证全局最优收敛。

背景知识

为什么多轮 RL 比单轮难

维度	单轮（RLHF/DPO）	多轮（智能体 RL）
时间步	$T = 1$	$T \gg 1$
信用分配	即时奖励	延迟、需要跨轮归因
优势估计	bandit 设定，简单	需要考虑状态转移
收敛性	有保证	大多数方法无保证

现有方法的收敛性分析

组合	单轮	多轮	问题
GAE + PPU（PPO）	收敛	收敛	需要 critic，计算贵
GRAE + REINFORCE（RLOO）	收敛	不收敛	需要 $\gamma = 1$
GRAE + PPU（GRPO/GSPO）	不收敛	不收敛	结构性偏差 $\Delta(s_t)$

关键发现：GRAE 的结构性偏差 $\Delta(s_t) = V(s_t) - V(s_0)$ 无法在 PPU 的 clip 目标中消除 → 破坏单调改进。

方法详解

1. 多智能体建模

将 $T$ 轮交互抽象为 $T$ 个虚拟智能体，共享初始状态 $s_0$：

每个智能体 $t$ 的策略：$\pi^t$ 接收 $s_0$ 和之前所有动作 $a^{(1:t-1)}$
联合动作：$a^{(1:T)}$ 拼接所有轮次的响应
团队奖励：$r(s_0, a^{(1:T)})$ = 最终任务完成度

2. 逆序策略更新（反向归纳）

对轮次 $t$ 按逆序 $T \to T-1 \to \ldots \to 1$ 更新：

\[\hat{\pi}^t_{k+1} = \arg\max_{\bar{\pi}^t \in U} \mathbb{E}\left[\mathbb{E}\left[A^t(s_0, a^t, a^{(t+1:T)})\right] - D^t(\bar{\pi}^t | s_0, \hat{\pi}^{(t+1:T)}_{k+1})\right]\]

$A^t$：轮次 $t$ 的局部优势函数
$D^t$：drift 函数（策略变化成本）
关键：后续轮次使用已更新的策略 $\hat{\pi}^{(t+1:T)}_{k+1}$ → 反向归纳

3. 局部优势函数分解

\[\mathbb{E}[A^t] = \mathbb{E}\left[\left(\frac{\bar{\pi}^t}{\hat{\pi}^t_k} - 1\right) \cdot \frac{\hat{\pi}^{(t+1:T)}_{k+1}}{\hat{\pi}^{(t+1:T)}_k} \cdot \hat{A}(s_0, a^{(1:T)})\right]\]

比率 $\hat{\pi}^{(t+1:T)}_{k+1} / \hat{\pi}^{(t+1:T)}_k$ 来自已更新的后续轮次的重要性采样 → 隐式实现轮次级信用分配。

4. 全局优势估计（Bandit 设定）

\[\hat{A}(s_0, a^{(1:T)}) = r(s_0, a^{(1:T)}) - \mathbb{E}[r(s_0, a'^{(1:T)})]\]

无需 critic 网络即可得到无偏优势估计。

5. 实际实现（SeeUPPO-GRAE）

梯度更新：

\[\nabla_\theta \mathbb{E}\left[\min\left(r^t(\theta) M^{(t+1)}, \text{clip}(r^t(\theta), 1 \pm \epsilon) M^{(t+1)}\right)\right]\]

其中累积重要性采样比率：

\[M^t = \frac{\pi^t_{k+1}}{\pi^t_k} \cdot M^{(t+1)}\]

归一化：使用 batch 级（非 group 级）标准化 → 保持 drift 函数性质，维持收敛保证。

6. 理论保证

单调改进：继承自 HAML 框架，每次迭代保证联合回报改进
全局最优（Theorem 2）：逆序更新实现反向归纳 → 更新轮次 $t$ 时，所有 $t+1, \ldots, T$ 已是最优 → 收敛到 $V^*$

实验结果

主要结果

Qwen3-14B（AppWorld）：

方法	avg@4	pass@4
GSPO	32.89%	52.63%
GRPO	40.35%	57.89%
SeeUPO	63.60%	80.70%

相对提升 43.3%-93.4%。

Qwen2.5-14B（AppWorld）：

方法	avg@4	pass@4
GRPO	35.53%	49.12%
PPO	40.79%	57.89%
SeeUPO	50.88%	70.18%

相对提升 24.1%-43.3%。

训练稳定性

GRPO 和 GSPO 在 Qwen2.5+AppWorld 上出现灾难性崩溃，而 SeeUPO 保持稳定的单调改进 → 验证了收敛保证的实际价值。

更新顺序消融（Qwen3-14B）

更新顺序	AppWorld avg@4	BFCL avg@4
逆序（SeeUPO）	63.60%	58.00%
正序	56.14%	54.25%
随机	33.33%	51.25%

逆序 » 正序 » 随机 → 反向归纳原则得到验证。

归一化策略消融

策略	AppWorld avg@4	理论保证
无归一化	39.91%	有
Group 级	62.35%	无
Batch 级	63.60%	有

Batch 归一化同时实现最佳性能和理论保证。

计算成本

训练时间：约为基线的 1.5×（可接受）
GPU 需求：8 GPU（与 GRPO/GSPO 相同），PPO 需要 16 GPU

个人思考

“GRPO 在多轮场景下不收敛” 是震撼性发现：GRPO 家族（包括 DAPO、GSPO 等 20+ 变体）是当前最火的 LLM RL 算法，但本文证明它们在多轮智能体场景下有理论缺陷 → 可能解释了很多训练不稳定的经验观察。
“轮次 = 虚拟智能体” 的抽象非常巧妙：将时序决策问题转化为多智能体 bandit 问题 → 可以用成熟的多智能体 RL 理论（反向归纳）来解。
逆序更新的直觉：先优化最后一轮（在其他轮次固定时最简单），然后逐步向前优化 → 类似动态规划从终态出发的思路。
随机更新顺序 33.33% 的惨淡结果说明：更新顺序不是”锦上添花”而是成败关键 → 随意的更新顺序可能导致策略互相干扰。
Batch 归一化 vs Group 归一化的差异容易被忽略：Group 归一化性能接近（62.35% vs 63.60%）但失去收敛保证 → 在大规模训练中这种差异可能导致后期崩溃。

← 返回列表