跳转至

ZPRL: Beyond Action Residuals — 用 Bottleneck Latent 强化学习 steer 真实机器人策略

论文阅读笔记 — 用于后续讨论的概览


1. 基础信息

  • 题目: Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning
  • 作者: Dongjie Yu*¹², Kun Lei*²³, Zhennan Jiang⁴, Jia Pan†¹, Huazhe Xu†²⁵(* equal contribution,† corresponding authors)
  • 单位: ¹香港大学 (HKU),²上海期智研究院 (Shanghai Qizhi Institute),³上海交通大学 (SJTU),⁴中科院自动化所 (CASIA),⁵清华大学交叉信息院 (IIIS)
  • arXiv 编号: 2605.19919(2026-05 提交,IEEEtran journal 模板,疑似投 RA-L / T-RO 方向)
  • 项目主页: https://manutdmoon.github.io/ZPRL/
  • 关键词: robot manipulation, RL post-training, offline-to-online, flow-matching policy, variational information bottleneck, latent steering, residual RL

RL 适配接口的设计空间 Figure 1:RL 适配 pretrained 策略的三种"介入接口"。Weight space(全参数微调)表达力强但算力贵、且和具体策略的 loss 设计纠缠;Action space(动作残差)轻量但探索抖动;ZPRL 选在 latent space —— 轻量 + 结构化探索 + 保留 action prior。

2. 文章介绍

2.1 解决的领域和问题

属于 机器人操作里 pretrained imitation policy 的 RL 后训练 (post-training) 子领域。离线模仿学习(IL)已经能从演示里克隆出相当强的视觉-运动策略,但部署时仍会因为执行误差、演示覆盖不足、部署环境失配而失败。论文要回答的核心问题不是"要不要用 RL 改进",而是 RL 应该介入 (intervene) 在 base policy 的哪个接口上 —— 是改权重、改输出动作、还是改某个内部表征?

2.2 Motivation

作者把 RL 适配接口拆成三类(Figure 1):

  • Weight space(全参数微调):表达力最强,但随策略规模增长越来越贵,而且对 diffusion / flow 这类生成式策略往往要绑定模型特定的优化技巧(如 DPPO、ReinFlow)。
  • Action space(动作残差):冻结 base policy,只学一个加在输出动作上的 corrective policy(Residual RL / Policy-Decorator)。轻量、保留预训练能力,但残差直接加在低层 motor command 上 → 探索退化成高频抖动,在机器人上容易抖、容易不安全。
  • 核心 insight:有意义的行为很少来自无结构的振荡;需要的不是"不同的动作",而是"在风格上仍与预训练策略一致的不同动作"。因此理想的介入空间应同时满足两点:(1) compact —— 维度低、便于在线高效探索;(2) structured —— 让探索贴着合法行为流形走。

这就引出论文的问题:与其直接改动作,能不能让 RL 通过一个更高效、更能捕捉预训练行为结构的接口来 steer 策略?

2.3 之前工作的问题

类别 代表工作 缺陷
Weight space 全微调 DPPO, ReinFlow 算力贵;和 diffusion/flow 的优化设计强耦合;大模型上需要大量系统/算法支撑
Action space 残差 Policy-Decorator (Po-Dec), Residual RL, Johannink2019 探索停留在低层动作;action chunk 维度随 horizon 线性增长 → 高维下探索低效;机器人上抖动、潜在不安全
Latent (diffusion noise) steering DSRL (wagenmaker2025steering) 把 RL 介入移到初始 noise,但这个空间维度 = 动作维度,horizon / DoF 增大时效率受限
Bottleneck latent for IL SOE (jin2025soe) 用 VIB latent 做 on-manifold 采样 + 重训 base policy,是 iterative IL 而非 RL steering

2.4 论文解决方案(一句话)

离线时给 base policy 挂一个 plug-and-play 的 VIB bottleneck 模块(不干扰原 IL 路径),在线时冻结整个 base policy,只用 SAC 学习对这个 16/32 维 bottleneck latent \(\vz\) 的残差扰动 \(\Delta\vz\),扰动后的 \(\tilde{\vz}\) 经冻结的 VIB decoder 解码成条件 \(\tilde{\vc}\),再喂给冻结的 flow model 生成动作 —— 即在一个 compact、task-relevant 的 latent 接口上 steer 策略。

2.5 与前序工作的关系

  • SOE (jin2025soe):最直接的来源。ZPRL 复用了 SOE 的 VIB bottleneck 思路与 stop-gradient plug-in 设计,但用途不同:SOE 是放大后验方差做随机采样、保留成功轨迹去重训 base policy(iterative IL);ZPRL 主张这个 latent 本身就蕴含 steering 潜力,用 RL 去扰动它而不是重训。
  • Deep VIB (alemi2017deep):VIB 目标与变分上界的来源。
  • DSRL (wagenmaker2025steering):最近的 latent steering 竞品(steer diffusion noise)。ZPRL 的差异是用一个维度更低、更对齐任务的 bottleneck 而非与动作同维的 noise。
  • Policy-Decorator (yuan2025policy):action-residual 代表,全文最主要的对照基线(仿真 + 真机都跑)。
  • Flow-matching policy (liu2023flow):base policy 的实例化(也兼容 diffusion)。代码基于 Diffusion Policy (chi2023diffusion) 改造(替换为 FM 目标 + 加在线 RL pipeline)。
  • SAC (haarnoja2019soft):在线 RL 算法。

3. 方法介绍

ZPRL 两阶段流程 Figure 2:(a) 离线 —— flow-based 策略正常训练,同时在 observation embedding \(\vc\) 上挂一条 VIB 支路(Enc \(p_\varphi\) → 采样 \(\vz\) → Dec \(g_\varphi\)\(\hat{\vc}\)),梯度被 stop-grad 隔离,不动 base。(b) 在线 —— 冻结整个 backbone,只有一个小 actor \(\pi_{\mathrm{on}}\)\((\vc,\vz)\) 预测 \(\Delta\vz\),得 \(\tilde{\vz}=\vz+\lambda\Delta\vz\),经冻结 decoder + flow 输出 \(\va_{\mathrm{on}}\) 与环境交互。

3.1 形式化

机器人操作建模成观察条件的 episodic MDP \(\gM=\langle \gS,\gA,T,\rho_0,\gR,\gamma\rangle\),动作是期望末端位姿。策略只看观察 \(\vo_t\)(图像 + proprioception),默认 sparse binary reward(成功 \(r_t=1\) 并终止,否则 0)。目标是最大化 \(Q^\pi(\vo,\va)=\E_\pi[\sum_t \gamma^t r_t]\)

Base policy = encoder + 条件 flow model。给观察 \(\vo\),encoder 产生条件向量 \(\vc=\gE(\vo)\),flow model 据此生成动作。Flow-matching 训练学一个速度场 \(v_\phi\),把噪声 \(\va^1=\vw\sim\gN(\bm0,\mI)\) 沿 ODE 输运到干净动作 \(\va^0=\va\),插值点 \(\va^k=(1-k)\va^0+k\va^1\)

\[ \gL_{\mathrm{IL}}(\phi)=\E\big[\,\|v_\phi(\va^k,k,\vc)-(\vw-\va)\|_2^2\,\big],\quad \vc=\gE_\phi(\vo). \]

推理时从噪声反向积分(论文用 2 步 采样 \(1\to0.01\to0\))得到动作。注意 \(\va\)多步动作 chunk

3.2 Bottleneck Task Latent(VIB 模块)

直接在 action space 探索随 horizon 变难(chunk 维度随时间线性增长,加高斯噪声只会产生高频抖动)。理想的接口应保留 action-relevant 结构、丢掉无关细节。论文采用 information bottleneck 目标:

\[ \min\; -I(\rvz;\rva)+\beta\, I(\rvz;\rvc), \]

其中 \(\vc=\gE(\vo)\)\(\beta\) 控制"信息量 vs 紧凑度"权衡。用变分编码器-解码器实例化得到标准 VIB 上界;在 flow 实例里,第一项就用 FM 目标实现(把重建特征 \(\hat{\vc}=g_\varphi(\vz)\) 替换原 \(\vc\) 作条件):

\[ \gL_{\mathrm{VIB}}(\varphi)=\E\big[\,\|v_\phi(\va^k,k,\hat{\vc})-(\vw-\va)\|_2^2+\beta\,\mathrm{KL}(p_\varphi(\rvz|\vc)\,\|\,r(\rvz))\,\big]. \]

后验取对角高斯,先验 \(r(\rvz)=\gN(\bm0,\mI)\)关键工程细节\(\gL_{\mathrm{VIB}}\) 的梯度被 stop-gradient 隔离,不更新 base encoder \(\gE_\phi\) 和 flow \(v_\phi\) —— 离线总损失 \(\gL_{\mathrm{off}}=\gL_{\mathrm{IL}}(\phi)+\gL_{\mathrm{VIB}}(\varphi)\) 里 VIB 是纯 plug-in 旁路,保证 base policy 性能不受影响。

3.3 RL 在 Bottleneck Latent 上做残差扰动

在线时不覆盖离线学到的 \(\vz\),而是加残差

\[ \tilde{\vz}=\vz+\lambda\,\Delta\vz,\quad \Delta\vz\sim\pi_{\mathrm{on}}(\cdot|\vc,\vz), \]

解码 \(\tilde{\vc}=g_\varphi(\tilde{\vz})\) 替换原条件,动作由冻结 base 生成 \(\va_{\mathrm{on}}\sim\pi_{\mathrm{base}}(\cdot|\tilde{\vc})\)

为什么 critic 定义在 \(\tilde{\vz}\) 而不是 \(\Delta\vz\):因为后验 \(p_\varphi(\vz|\vc)\) 是随机的,同一个 \(\Delta\vz\) 加到不同 \(\vz\) 上会诱导不同动作分布,所以 \(\Delta\vz\) 单独不足以确定下游动作、无法赋一个良定义的 value。实现上 actor 输入 \((\vc,\vz)\) 预测 \(\Delta\vz\),critic 评估 \((\vc,\tilde{\vz})\)

两点效率优势:(1) 仍能影响整个 action chunk,但操作在低维空间 —— action chunk 最多约 100 维,bottleneck latent 只有 16 或 32 维;(2) 扰动作用在条件而非动作上,最终动作仍由预训练 generator 产生,被离线数据分布"结构化",更稳更安全。

3.4 在线 RL 目标与设计选择

SAC。只更新残差 actor \(\pi_\theta\) 与 latent critic \(Q_\psi\),base 全冻结。Actor / Critic loss:

\[ \gL_\pi(\theta)=\E\big[\alpha\log\pi_\theta(\Delta\vz|\vc,\vz)-Q_\psi(\vc,\tilde{\vz})\big], $$ $$ \gL_Q(\psi)=\E\big[(Q_\psi(\vc,\tilde{\vz})-y)^2\big],\quad y=r+\gamma\,\bar Q_{\bar\psi}(\vc',\tilde{\vz}'). \]

几个值得注意的选择:

  • Q 函数里去掉 entropy 项 以稳定训练。
  • 扰动尺度 \(\lambda\):太小 steer 无力,太大则 \(\tilde{\vz}\) 跑出预训练 latent 支撑、decoder 难以可靠解码。经验法则:让 \(\mathrm{RMS}(\lambda\Delta\vz)\) 约为 \(\mathrm{RMS}(\vz)\)10%–20%,再按早期学习曲线微调。每个任务一个固定 \(\lambda\)
  • UTD(update-to-data):不追求超高 UTD(10/20),因为真机瓶颈在交互而非更新;仿真用 UTD=1,真机 2 或 5。
  • 为什么不用 action-space critic:那需要在 critic 优化里反复跑动作去噪/积分,即使 2 步也拖慢 wall-clock;故直接在 latent 扰动空间上训 critic。

3.x Implementation Details

  • 代码基座:Diffusion Policy,替换为 FM 目标 + 在线 RL pipeline。
  • 观察编码:每相机每步图像经从头训的 ResNet-18 → 256 维 embedding;proprioception 用原始向量(仿真为末端位姿,真机为关节角)。
  • Flow backbone:沿 action-chunk 维做卷积的 1D U-Net,通道宽 128-256-512(仿真)/ 256-384-512(真机)。
  • VIB 模块:encoder + decoder 各一个 4 层、宽 256、GELU 的 MLP。
  • Flow schedule:离线 100 步离散化;推理 2 步\(1\to0.01\to0\))。离线预训练 1000 epochs。
  • 在线超参:batch 256,actor lr 1e-4,critic lr 3e-4,\(\gamma\)=0.99(transport 0.997,Insert Bills 0.998),target entropy \(-d/2\),初始温度 0.01,critic 个数 2(真机 5,Insert Bills 10)。
  • 真机平台:xArm-6(Place Orange)、Franka Panda(Flip Egg),Robotiq 2F-85 夹爪,第三视角 + 双臂腕部相机;控制频率 10–30 Hz。VR 头显采集演示。人类监督员在每个 episode 提供 sparse reward 并复位工作区。

4. 结果对比

4.1 仿真:8 任务 / 3 benchmark

任务:Robomimic(can / square / transport,官方 MH 混合质量 100 条)、Adroit(door / hammer / pen)、Metaworld(box-close / push-wall),后两个用 medium-expert 策略生成 100 条。视觉输入(图像 + proprio)。基线:DPPOReinFlow(全微调)、Po-Dec(action 残差)、DSRL(noise steering)。

结论:ZPRL 在全部 8 任务都达到强 final SR,且在线适配速度居前列,对平行夹爪(Robomimic / Metaworld)与灵巧手(Adroit)都成立。唯一例外是 Metaworld 两个任务早期 Po-Dec 更快 —— 因为这俩 action chunk 只有 8 维(chunk size 2 × 4 维/步),标准 action-space RL 已够用,latent 优势不明显;但后期 ZPRL 仍反超。

4.2 关键消融(Robomimic square,Table 1)

Setting Steps(×10⁶) to SR=0.9 ↓ Final SR ↑
\(\lambda=0.10\) 2.40 0.86
\(\lambda=0.15\) 1.54 0.95
\(\lambda=0.20\) 1.16 0.98
\(\lambda=0.25\) 1.15 0.96
\(\lambda=0.50\) N/A 0.74
\(\dim(\vz)=4\) N/A 0.68
\(\dim(\vz)=8\) 1.23 0.98
\(\dim(\vz)=16\) 1.16 0.98
\(\dim(\vz)=32\) 1.08 0.99
Po-Dec (\(\dim(\va)=40\)) 1.68 0.92
\(\dim(\vz)=64\) 1.29 0.94
\(\dim(\vz)=128\) 1.90 0.91
\(N_{\mathrm{demo}}=25\) 2.54 0.86
\(N_{\mathrm{demo}}=100\) 1.16 0.98

要点:(1) ResEmb 对照(直接在高维 observation embedding 上学残差、无 VIB 压缩)一致更差更不稳 → 增益不来自"扰动任意中间特征"。(2) \(\lambda\) 控制探索-稳定权衡,0.20 最佳,0.50 直接崩。(3) 不是单纯降维\(\dim(\vz)=64\) 已超过 Po-Dec 的动作维 40,ZPRL 仍更快更好(1.29M vs 1.68M,0.94 vs 0.92)—— 关键是 RL 是否在 task-relevant 空间里探索;\(\dim\) 太小(4)或太大(128)都伤。(4) 离线数据越少,latent manifold 覆盖越窄,两阶段都受损(但 25 条仍可用)。

4.3 平滑性(Robomimic square,Table 2)

末端位置的有限差分速度/加速度([Po-Dec | ZPRL],越低越平滑):

Env Steps Vel_EE (m/s) Acc_EE (m/s²)
0 0.14 | 0.15 3.43 | 3.74
0.8M 0.33 | 0.22 10.42 | 6.35
1.6M 0.32 | 0.21 9.78 | 6.03
2.4M 0.31 | 0.22 9.60 | 5.79

2.4M 步时 ZPRL 把速度降约 29%、加速度降约 39%。机制:action 残差注入持续高频振荡,而 ZPRL 扰动 latent 后仍靠冻结 flow 生成动作 → 更平滑。

仿真平滑性轨迹对比 Figure 3:square 任务 y 轴期望位置随时间。两者初始都同样抖(随机初始化的 RL 策略),但在线适配后 Po-Dec 振荡越来越强(红框),ZPRL 仍保持结构化、规整的 steering。

4.4 真机:4 任务

四个真机任务的 rollout Figure 4:(a) Place Orange 单臂抓放、(b) Flip Egg 高动态接触(末端加速度可达 6 m/s²)、(c) Open Box 双臂协调开锁、(d) Insert Bills 双臂 + 可形变纸币插入。覆盖了从 pick-and-place 到 deformable-object manipulation 的难度梯度。

任务 控制频率 对照 ZPRL 结果
Place Orange 30 Hz Po-Dec、base 更快达高 SR;但 episode 更长(高频 + 谨慎对位)
Flip Egg 10 Hz Po-Dec、base final SR 比 Po-Dec 高约 12.5%,episode 缩短约 6%
Open Box 20 Hz Po-Dec、base final SR 比 Po-Dec 高约 7.5%,episode 缩短约 6%
Insert Bills 20 Hz 仅 ZPRL base 20% → final 77.5%

总体:ZPRL 比 imitation base policy 平均 SR 提升 33.7%鲁棒性(zero-shot,人为扰动 / 换物体 / OOD 布局,每例 10 次)平均 SR 69%,对人为干扰、外观变化(塑料橙 1.0、不同形状/颜色蛋 0.8/0.9)尚可;最难的 Real egg(软真蛋改变接触力学)掉到 0.5,Insert Bills 在视觉干扰/人为扰动下也明显下降。

真机失败模式 Figure 5:各任务残留失败模式 —— PO 抓偏/撞榨汁机;FE 插太浅翻不动 / 太猛把蛋甩出锅;OB 漏掉左/右锁扣;IB 因遮挡半途卡住 / 纸币弯折撞钱包。这些正是 §5.2 里"受限于 base policy 支撑"的直接证据。

附录还用 UMAP + Mahalanobis 距离 分析:ZPRL 主要是重映射 (remap) state–action 关联而非凭空创造新动作(扰动后 \(\tilde{\vc}\)\(\va\) 的点云仍与 base 大体重叠,只是局部密度/配对被重组);并量化"必须保持 local"——\(\lambda\) 越大,\(\tilde{\vz}\) 的 OOD 程度与解码特征位移越大,经验上把 \(\tilde{\vc}\) 的平均 L2 位移控制在约 0.8 以内效果好。\(\beta\)(KL 权重,\(10^{-3}\!\sim\!10^{-5}\))对结果几乎无影响。

5. 引申问题 / 讨论

5.1 做得好的地方

  1. 接口选址精准:把 RL 介入点放在 VIB bottleneck,同时拿到 compact(16/32 维 vs action chunk 最多 ~100 维)与 structured(冻结 decoder+flow 把动作锁在流形上)两个好处,正好补上 weight-space(贵)和 action-space(抖)各自的短板。这是全文最干净的 design 论证。
  2. critic 定义在 \(\tilde{\vz}\) 而非 \(\Delta\vz\) 的论证扎实:因为后验随机,同一 \(\Delta\vz\) 加到不同 \(\vz\) 上诱导不同动作,\(\Delta\vz\) 无法良定义 value。这是对 MDP 状态定义的正确处理,不是随手选的。
  3. plug-in stop-gradient 设计:VIB 旁路梯度不回传 base,保证"加了 bottleneck 不掉点",让方法对任何 encoder→decoder 式 base policy 都能挂载(在该架构假设下)。
  4. 平滑性是涌现的副产品而非手工正则:因为扰动 latent 后仍由冻结 flow 生成动作,速度/加速度自然更低(29%/39%),在高动态 Flip Egg 这种"既要快又要精确接触"的任务上是真正的实用优势——Po-Dec 甚至要额外加 3 步时间滤波才能上硬件。
  5. dim 消融直接反驳"只是降维"的质疑\(\dim(\vz)=64>\) Po-Dec 的 40 维仍更优,把功劳归到"task-relevant 空间 + locality"而非单纯维度,实验设计有针对性。
  6. 真机广度可观:单臂 / 双臂 / 可形变 / 高动态接触都覆盖,Insert Bills 从 20% 拉到 77.5% 是有分量的真机结果,且补了 OOD / 人为扰动鲁棒性测试。
  7. 机制分析诚实:UMAP + Mahalanobis 把"remap 而非 create"和"必须 local"都量化了,没有过度神化方法。

5.2 做得不够好 / 值得质疑的地方

  1. 性能被 base policy 支撑封顶(作者自己承认):ZPRL 是"重组/重加权"已编码的行为,而非"创造"新技能。当 corner case 需要离线数据里缺失的技能(如把弯折的纸币在内袋里压平)时几乎无能为力。这是冻结 base 设计的根本天花板,意味着增益会饱和。Figure 5 的失败模式基本都属此类。
  2. \(\lambda\) 高度 task-specific 且靠手调:Table(附录)里 \(\lambda\) 从 transport 的 0.1 一路到 box-close/push-wall 的 1.5,跨度 15 倍;square 上 \(\lambda=0.5\) 直接把 final SR 砸到 0.74。所谓"RMS 10–20%"只是事后经验法则,没有在线自适应机制。换任务要重新试 \(\lambda\),部署成本被低估。
  3. 真机只对照 Po-Dec 和 base:最关键的 latent 竞品 DSRL(noise steering)和全微调(DPPO/ReinFlow)在真机上完全没跑。于是"compact latent > noise steering"的论点只在仿真成立;真机的卖点 33.7% 是相对 base、不是相对最强基线。
  4. headline 数字的归因偏乐观:33.7% 平均提升被 Insert Bills(20%→77.5%,+57.5pt)严重拉高,而 IB 恰恰没有任何基线对照(只跑了 ZPRL)。其余三个任务相对 base 的逐项增益没单独列表。最亮眼的数字也是最不受控的。
  5. 真机 RL 不是自主的:sparse reward 靠人类监督员每个 episode 手动给,外加复位工作区,单任务在线 3.5–12.5 小时。reward/reset 的人力成本与采集时长被淡化,"few hours of online interaction"的措辞掩盖了 human-in-the-loop 的重负担。
  6. VIB 必须与 base 联合离线训练:无法 post-hoc 挂到现成 checkpoint 上(作者列为 limitation)。这恰恰削弱了"轻量适配"最该发力的场景 —— 直接拿开源 VLA(π0 等)来 steer;而且单一 encoder→decoder bottleneck 的架构假设不适配 cross-attention 式 VLA。
  7. "sample efficiency"领先有限:很多仿真任务里 ZPRL 与 DSRL 曲线相互重叠,作者措辞是"competitive"而非碾压;真正稳健领先的是 final SR + 平滑性。而且为了 wall-clock 故意压低 UTD,env-step 维度的对比口径要小心解读。
  8. 平滑性对比的公平性存疑:Po-Dec 需要额外 3 步时间滤波才能上硬件,文中说"即便加滤波仍不如 ZPRL",但没探索调 Po-Dec 的残差 scale 来换平滑;平滑度部分可能本就能靠 residual scale 调节,比较未必完全对等。
  9. 统计样本偏小:仿真 3 seeds;真机每个 checkpoint 仅 40 条评测、鲁棒性每例仅 10 次。真机 7.5% / 12.5% 的差距在 40 次试验上很可能落在噪声范围内,正文也没给真机柱状差距的置信区间。
  10. IB 目标本身的贡献存疑\(\beta\)\(10^{-3}\!\sim\!10^{-5}\) 几乎不影响结果。作者解读为"鲁棒",但也可能说明 information bottleneck 的压缩并没起多大作用——增益主因或许是低维 latent + locality,而非 IB 目标。ResEmb 消融只对照了"全维 embedding",缺一个"低维线性投影但无 KL/无随机后验"的对照来真正隔离 IB 的功劳。

5.3 值得继续探讨的方向

  • post-hoc bottleneck:能否对已冻结的预训练策略,从其 embedding 蒸馏出一个 bottleneck latent 而不重训?这是把 ZPRL 推广到开源 VLA 的关键(作者自己的 open question)。
  • 推广到 cross-attention VLA:π0 这类任务信息分散在多层 hidden state,哪个表征该当 steering 接口?并发工作 xu2026rl 用一个额外 transformer enc-dec 抽 task-relevant token(但它是另训 actor 加正则,而非 steer base)。
  • 自适应 \(\lambda\):把固定常数换成 curriculum 或在线把 \(\lambda\) 绑到 Mahalanobis OOD 分数上,自动维持"够强但仍 local"。
  • 真机补 DSRL 对照:在真机上跑 noise steering,才能让"compact latent > noise"的核心论点超出仿真。
  • 与 residual-RL 技巧组合:作者指出 DICE-RL 等 action-residual 技巧可迁到 latent 空间,值得验证。
  • 超出 RL 的 latent steering:用 latent 扰动做轻量 iterative IL 数据采集(每轮只补少量数据时,比每轮重训整策略更省)。
  • 拆解 IB 的真实贡献:用"低维投影无 VIB" vs 完整 VIB 的对照,隔离 bottleneck 到底买到了什么。

参考资源

  • 论文 PDF: paper.pdf
  • LaTeX 源码: source/
  • 项目主页: https://manutdmoon.github.io/ZPRL/
  • 关键 baseline / 相关论文: SOE (jin2025soe)、Deep VIB (alemi2017deep)、DSRL / noise steering (wagenmaker2025steering)、Policy-Decorator (yuan2025policy)、DPPO (ren2025dppo)、ReinFlow (zhang2025reinflow)、DICE-RL (sun2026dicerl)、并发工作 (xu2026rl)