跳转至

SimDist (Simulation Distillation): 在仿真中预训练世界模型以实现真机快速自适应

论文阅读笔记 — 用于后续讨论的概览


1. 基础信息

  • 题目: Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation
  • 作者: Jacob Levy*¹, Tyler Westenbroek*², Kevin Huang², Fernando Palafox¹, Patrick Yin², Shayegan Omidshafiei³, Dong-Ki Kim³, Abhishek Gupta†², David Fridovich-Keil†¹(*共同一作,†共同指导)
  • ¹University of Texas at Austin ²University of Washington ³FieldAI
  • arXiv 编号: 2603.15759(submitted 2026-03,project page: sim-dist.github.io,含开源代码)
  • 关键词: world model, sim-to-real, model-based RL, online planning (MPPI/MPC), system identification, quadruped locomotion, contact-rich manipulation

front teaser Figure 1:左列是 zero-shot sim-to-real 策略的失败(peg 插不进、桌腿拧不上、teflon 斜坡打滑、泡沫塌陷);右列是 SimDist 只用 15–30 分钟真机数据后的稳定改进。核心卖点是"真机数据极少 + 单调提升"。

2. 文章介绍

2.1 解决的领域和问题

属于 sim-to-real 机器人学习 / 真机在线自适应。问题是:机器人在新环境里只能拿到少量、混合质量的交互数据(演示、失败、探索动作、旧策略 rollout),如何用这点数据可靠地提升性能。难点集中在 long-horizon、contact-rich 的任务上——小误差会累积,成功需要对多种可能的未来做推理。

现有两条路都不好走: - 端到端策略 finetune(RLPD/IQL/SAC 这类 model-free,以及 OpenVLA/π 这类大策略)在新域上常常崩——表征、奖励、价值、动作选择全部纠缠在一起,自适应时整个决策过程被一起改写,同时还要解 long-horizon credit assignment,于是出现灾难性遗忘。 - 从零学世界模型(Dreamer/TD-MPC)需要 action-conditioned、覆盖广的真机数据,规模上真机采集不起。

2.2 Motivation

作者主张 world model 才是利用先验经验做高效自适应的正确抽象:世界模型把决策模块化(环境预测网络 vs. credit assignment 网络分开),于是新数据可以只去精修"动作后果"的模型,而不覆盖掉预训练学到的整套决策结构;再用 online planning 把更准的预测转化为更好的行为,去评估那些机器人没直接经历过的 counterfactual 未来。

但训练可用于规划的世界模型需要海量、覆盖广的 action-conditioned 数据。核心 insight:这些组件不必和真机精确对齐就能支撑规划——

  • reward / value 模型只需要给真机状态一个正确的"排序"(ranking),让 planner 区分有希望的未来和糟糕的未来即可。这比估计精确 return 要弱得多、也更可迁移。例(peg 插孔):模型只要把"peg 离孔更近 / 对齐更好 / 已部分插入"排在更前面就够了。
  • dynamics 模型把动作和未来状态绑定,对 sim-to-real 的 dynamics gap 最敏感——但只要初始化得当,这个 gap 可以用简单的监督式 finetune(在真机数据上)高效修正。

2.3 之前工作的问题

类别 代表工作 缺陷
Model-free 真机 RL RLPD, SERL, IQL, SAC 激进复用 off-policy 数据 + 频繁 critic 更新 → value 过估计、训练不稳;端到端 finetune 易灾难性遗忘
Model-based RL(从零 bootstrap) Dreamer, TD-MPC 需在稀缺 in-domain 数据上同时 bootstrap 表征 / 价值 / 策略;planner 会主动 exploit 模型误差
经典自适应控制 / MPC / 神经物理引擎 adaptive control, ContactNets, neural physics engines 依赖简化低维状态、物体位姿或接触标签,在 partial-obs、contact-rich 下脆弱
仿真价值迁移 SGFT, Lyapunov value transfer 只迁移价值函数,仍依赖低维状态观测;不做完整 world-model 规划
生成式视频世界模型 Genie, UniPi, GR-x 预测像素、需 demo/inverse model 落地;训练在窄的 expert-like 动作分布上,受真机数据约束、难超越数据

2.4 论文解决方案(一句话)

在仿真里用 privileged 专家 + 多样化(含次优 / 失败)数据蒸馏出一个 planning 导向的 latent 世界模型,真机部署时冻结 encoder / reward / value / base policy,只用监督式 system identification 微调 dynamics,再配 MPPI 在线规划——把真机自适应从"不稳定的 RL"降维成"稳定的监督学习"。

2.5 与前序工作的关系

  • 直接建立在 TD-MPC(planning-oriented latent WM + MPPI、用 base policy 的噪声扰动输出 warm-start 采样)和 Dreamer 系的世界模型谱系上。
  • 数据生成管线建立在 yin2026emergent("Emergent" 学生-教师 sim-to-real 管线,也直接提供了本文 manipulation 的专家策略 \(\pi^e\) 与价值 \(V^e\))。
  • 最近的"兄弟"工作是 SGFTyin2025rapidly)——只迁移仿真价值函数;SimDist 把它推广成完整世界模型自适应,并在实验里用 SGFT-SAC 隔离"只迁价值"的收益。
  • 单次前向的 chunked dynamics 预测借鉴了 AnyCarxiao2025anycar)。
  • 复用现成件:ImageNet 预训练 ResNet-18、IsaacLab PPO、Unitree Go2、UR5e。

3. 方法介绍

method overview Figure 2:SimDist 全流程。①仿真里用 RL 训出专家策略 + checkpoints + 价值函数;②混合专家/次优策略 + 时序连续动作扰动,生成带 dense reward 与 value 监督的多样化数据;③在原始观测上预训练 planning 导向的 latent 世界模型;④a 部署时迁移表征 + 冻结的 reward/value 做规划,④b 只对 dynamics 做监督式 system identification,部署与微调交替迭代。

3.1 形式化

把控制建模为 POMDP \((\mathcal{S},\mathcal{A},\mathcal{O},p,r,\gamma)\),真实动力学 \(s_{t+1}\sim p(\cdot|s_t,a_t)\),但真机只能拿到原始观测 \(o_t\),目标是最大化折扣回报 \(\mathbb{E}[\sum_t \gamma^t r]\)

关键假设:存在一个近似物理仿真器 \(p_\mathtt{sim}(\cdot|s_t,a_t)\),并提供对底层状态 \(s_t\) 的 privileged 访问。

世界模型结构(planning-oriented latent WM):

组件 公式
隐表征 \(z_t = E_\theta(o_t)\)
历史表征 \(h_t = C_\theta(o_{t-H:t-1}, a_{t-H:t-1})\)
隐动力学 \(\hat z_{t+1:t+T} = f_\theta(z_t, a_{t:t+T-1}, h_t)\)
奖励预测 \(\hat r_{t:t+T-1} = R_\theta(\hat z_{t:t+T}, a_{t:t+T-1})\)
价值预测 \(\hat v_{t+1:t+T} = V_\theta(\hat z_{t:t+T})\)
Base policy \(\hat a_{t:t+H} = \pi_\theta(z_t, h_t)\)

规划(MPPI):每个控制步采一批候选动作序列,用世界模型评估其轨迹回报 \(\mathcal{R}(a_{t:t+T-1}) = \gamma^T\hat v_{t+T} + \sum_{s=t}^{t+T-1}\gamma^{s-t}\hat r_s\),再按回报做 importance weighting 算出执行动作。和 TD-MPC 一样,用 base policy \(\pi_\theta\) 的噪声扰动输出去 warm-start 一部分候选序列。

architecture Figure 3:世界模型架构。最新观测进 Latent Encoder,历史观测+动作进 History Encoder,两者共同条件化一个 transformer latent dynamics,单次前向预测整段未来 latent;transformer 的 reward/value 头在整条预测轨迹上做评估;base policy 头出 action chunk 用来 warm-start 采样。

3.2 仿真预训练:多样化数据生成

SimDist 建立在"用 privileged state-based 专家收集大规模数据"的管线上,但 planning-based 自适应对模型的要求更强:planner 会主动搜索高价值动作序列、在覆盖薄弱处 exploit 模型误差,所以模型必须在专家分布和真机分布之外都可靠。为此刻意注入次优动作来覆盖错误、修正、失败。

  • 专家训练:先用现成 sim-to-real 管线训出 state-based 专家 \(\pi^e(s_t)\),同时保存最优价值 \(V^e(s_t)\) 和训练中间 checkpoints \(\{\pi^k\}_{k=1}^K\)
  • 多样轨迹 + dense 监督alg:datagen):每个并行环境随机分一个 checkpoint(或专家),采样对角动作噪声协方差 \(\Sigma_j\),并在重置时采样连续的加噪时间区间(contiguous noise intervals),在这些区间里给动作加高斯噪声。这样产生大量"偏离最优 manifold 的失败 + 恢复"行为。每步还查询 \(V^e(s_t)\) 得到价值目标 \(v_t\),并记录 expert flag \(b^e_t\)(区分纯专家动作 vs. 加噪/旧 checkpoint 动作)。得到数据集 \(\mathcal{D}_\mathtt{sim}=\{(o_t,a_t,r_t,v_t)\}\)
  • 预训练损失(对每个 \(t\) 的预测累加 \(i=0..T\)):
\[ \mathcal{L}_t^\mathtt{sim} = \sum_{i=0}^T \Big( \underbrace{\|\hat z_{t+i+1}-\mathtt{sg}(E_\theta(o_{t+i+1}))\|_2^2}_{\text{latent dynamics(consistency)}} + c_1\underbrace{(\hat r-r)^2}_{\text{reward}} + c_2\underbrace{(\hat v-v)^2}_{\text{value}} + c_3\underbrace{\mathds{1}_e(a)\|\hat a-a\|_2^2}_{\text{BC(仅专家动作)}}\Big) \]

其中 sg 是 stop-grad,\(\mathds{1}_e\) 只在动作来自未加噪专家时为 1,\(c_{1:3}\) 由各目标 range 归一化得到。注意:因为行为生成 offload 给了 privileged 专家,预训练变成一个简单、平稳的监督目标不需要 TD learning / bootstrap(区别于在线 MBRL)。

  • 不用 reconstruction loss:理由有二——(1) 多样化数据本身就逼迫 encoder 学到鲁棒表征,不必再付像素重建的算力;(2) sim-to-real 需要大量视觉随机化,像素重建会逼 latent 去编码被刻意随机化的纹理/光照/渲染 artifact(与任务无关),反而伤害迁移

3.3 真机迁移与高效 dynamics 自适应

关键 insight:全局任务结构对底层 sim-to-real dynamics gap 基本不变。例(Peg Insertion):有意义的 latent 捕捉 peg 和孔的位置,value 编码"到目标的距离"和"通向成功插入的运动"——这些跨 sim-to-real 仍然成立,即便实现它们所需的底层动作在两个域里不同。

于是 SimDist 只 finetune dynamics \(f_\theta\),冻结 \(C_\theta, E_\theta, R_\theta, V_\theta, \pi_\theta\)

\[ \mathcal{L}_t^\mathtt{real} = \sum_{i=0}^T \|\hat z_{t+i+1}-\mathtt{sg}(E_\theta(o_{t+i+1}))\|_2^2 \]
  • encoder 冻结 → 提供一致的 latent target,不需要 bootstrap 表征;并把适配后的 dynamics 锚定在 \(R_\theta/V_\theta\) 被训练去评估的那个 latent 空间上,避免漂移。
  • 冻结的 reward/value 头提供即时的 long-horizon 规划信号,使一个相对短 horizon 的 planner 也能随 dynamics 变准而提升性能——无需在真机做 reward/value bootstrap
  • 迭代改进alg:method):反复"用 planner 收集 \(M\) 个 on-policy rollout → 加入 \(\mathcal{D}_\mathtt{real}\) → 最小化 \(\mathcal{L}^\mathtt{real}\) 微调 \(f_\theta\)"。因为 system ID 能从任意真机轨迹学习,SimDist 天然支持 off-policy,可吸收 demo/play 等异构数据。

Remark:标准 MBRL 必须从稀缺 in-domain 数据里同时 bootstrap 表征、价值、策略;SimDist 把这些难目标 offload 到仿真(数据廉价且充足),从而把真机自适应降维成 dynamics 的监督式 finetune

3.4 World Model 设计决策(为实时规划服务)

planner 要采大量 off-policy rollout 并准确建模 return,下面三点是实时决策的关键:

  1. 极简历史表征:把观测拆成 proprioceptive \(o^p\) 和 exteroceptive \(o^e\),history encoder 只吃 \((o^p_{t-H:t}, a_{t-H:t}, o^e_t)\)——即只保留最新一帧高维(图像/height map)观测。大幅降规划延迟,且经验上缩短 context 反而提升训练稳定性。
  2. Chunked 预测:自回归世界模型要沿规划 horizon 逐步展开,评估大量 rollout 时是并行瓶颈。\(f_\theta\) 改用 transformer(history token 与候选动作序列做 cross-attention + causal mask),单次前向预测 \(T\) 步未来,吃满 GPU 并行,规划吞吐大幅提升。
  3. Seq2seq return 建模:reward/value 不用 per-timestep MLP,而用 transformer 在整条预测 latent 轨迹 \(\hat z_{t:t+T}\) 上做 attention,聚合轨迹级信息 → 更准的 return 估计(ablation 验证)。

3.x Implementation Details

Manipulation (UR5e) Quadruped (Unitree Go2)
动作 6D 相对 EE 位姿 + 二值夹爪 12 关节位置目标
观测 关节状态 + 3×224×224 RGB(腕/俯视/侧视),各过 ImageNet ResNet-18 → 拼 proprio → MLP → 64 维 \(z\) proprio + 局部地形 height map(CNN)+ MLP → \(z\);额外条件化于命令前向/侧向/yaw 速度
数据规模 100k 轨迹(约 36% 纯专家动作) ~100M data points(55.7% 纯专家);4096 环境 × 25000 步,数据生成 ~7h(RTX 4500 Ada)
专家 yin2026emergent\(\pi^e, V^e\) PPO @ IsaacLab,MLP 3×512,4096 环境 × 5000 iter = 490M steps
H, T / 控制频率 H=T=5 / 5 Hz H=T=25 / 50 Hz(部署在 RTX 4090M 笔记本)
预训练 2 epoch,batch 256,~200k 更新,Adam 2e-4→1e-4 cosine,10k warmup 2 epoch,batch 512,~3.69e5 更新,~28h(RTX 4500 Ada)
MPPI 250 候选 + 100 噪声 base policy,3 solver iter,elites 64,temp 0.4,γ=0.99 450 候选 + 22 base policy,8 solver iter,elites 64,temp 0.25,γ=0.99
  • dynamics transformer:manipulation 3 层 / 4 头;reward、value 各 1 层 / 1 头;base policy 4 层 / 8 头;embedding 维度 64。
  • 数据增强:proprio 加零均值高斯噪声;视觉 color jitter / 高斯模糊 / 随机裁剪。
  • 真机更新节奏:manipulation 每 20 episode 更新一次 dynamics(baseline 每 episode 更新)。

4. 结果对比

results Figure 4:四个任务的真机学习曲线(横轴=真机数据量)。SimDist(深蓝)随数据快速且单调提升;model-free baseline(IQL/RLPD)几乎不动甚至崩塌;BC(Diffusion Policy / π₀.₅)是固定水平线被反超。manipulation 任务从 Narrow→Wide 初始分布变难时,SimDist 与 baseline 的差距进一步拉大。

总体:SimDist 在所有任务上普遍约 2× 于任意 baseline;标准 RL finetune 经常灾难性遗忘、训练中性能崩塌,SimDist 则单调稳步提升。SGFT(迁价值)避免了崩塌但样本效率显著更差。给 SimDist 加 demo(+BC)只会更好,体现它能吸收异构、混合质量数据。吞吐(success/min)相比 zero-shot 提升约 1.5×–2×

4.1 四足真机详细结果(每速度 5 trial)

微调用数据:Slippery Slope 35.7 min,Foam 32.1 min。RLPD 在 Foam 上把机器人弄失稳,未报告。

任务 速度 (m/s) Pretrained (zero-shot) Single-step BC SimDist IQL RLPD
Slippery Slope 0.1 0/5 2/5 4/5 0/5 0/5
0.3 0/5 1/5 5/5 0/5 0/5
0.5 0/5 0/5 5/5 0/5 0/5
Foam 0.2 3/5 1/5 5/5 1/5
0.7 2/5 1/5 5/5 2/5
1.2 0/5 2/5 5/5 3/5

(forward progress 同样几乎全部满格,如 Slope 0.3/0.5 达 1.82±0.00 m,Foam 全部 3.00±0.00 m。)

4.2 Manipulation

  • 任务:Peg Insertion(仿 Factory 16mm 方 peg)、Table Leg(FurnitureBench,桌腿对齐拧入),各从 Narrow (2×2cm) / Wide (35×35cm) 初始网格起。20 次试验/数据点,成功定义为 45 秒内完成。
  • baseline:RLPD、IQL(稀疏奖励,offline-to-online)、SGFT-SAC(迁仿真价值)、Diffusion Policy、π₀.₅(100 demo BC,含 real-only 与 real+sim co-train 变体)。
  • SimDist 两个变体:纯 SimDist(只调 dynamics、无 demo);SimDist+BC(额外用 teleop demo 的动作标签 finetune base policy)。
  • 趋势:任务从 Narrow→Wide 变难,SimDist 与 baseline 的差距扩大;scatter 图显示 SimDist 在整个初始条件空间上比 Diffusion Policy 鲁棒得多。

4.3 关键消融(仿真,manipulation 报成功率 / 四足报每 episode 平均奖励)

配置 Peg (SR) Table Leg (SR) Quadruped (Reward)
SimDist 0.90 0.85 22.78
50% 数据 0.72 0.61 22.73
10% 数据 0.06 0.02 19.38
仅专家数据(等量) 0.10 0.05 16.68
MLP reward+value 头 0.82 0.60 19.47
加 raw obs reconstruction 0.32 0.21 23.34

要点: - 数据规模与多样性是命门:缩到 10% 直接崩(Peg 0.90→0.06);"仅专家、等量"也崩(0.90→0.10)——说明真正起作用的是覆盖错误/恢复的多样性,不是单纯数据量。 - seq2seq transformer 头 > per-step MLP(Peg 0.90→0.82,Table Leg 0.85→0.60)。 - reconstruction 对 manipulation 有害(0.90→0.32),对四足略有帮助(22.78→23.34)——印证"像素重建逼 latent 编码被随机化的视觉细节"。 - 解冻消融(真机,fig:unfreeze):解冻 encoder → 完全失效(冻结的 reward/value 收到分布外 latent);解冻 value → 重新引入 long-horizon credit assignment → 灾难性遗忘。reward 头因真机拿不到 dense 标签而根本不解冻。

4.4 机制证据

  • value 迁移fig:value):成功 rollout 的预测 value 随时间上升,失败(掉 peg)时骤降——冻结 encoder+value 能可靠区分成功/失败。
  • dynamics 微调有效(Slippery Slope):latent 预测损失从 pretrained 的 0.076 降到 0.019;解码到前左脚轨迹,pretrained 模型错误地预测 PTFE 面上稳定接触、预测不到打滑,微调后能准确预判 slip。
  • planning 行为被重塑:微调 dynamics 的采样轨迹反映真实接触动力学,使 planner 选出能应对打滑的方案;pretrained 模型的方案与真实动力学定性不符。

reconstruction probe Figure 5:真机相机观测 vs. 从冻结 encoder 的 latent \(z_t\) 用辅助 probe 重建出的图像。世界模型本身并没有用重建损失训练——这说明仅靠多样化预训练,encoder 的 latent 已经捕捉了真实场景的底层状态。

5. 引申问题 / 讨论

5.1 做得好的地方

  1. 把"自适应"精准切到 dynamics gap 上。核心洞察——reward/value 只需 ranking 正确(序关系),不需估计精确 return——是这篇文章成立的支点。冻结 E/R/V、只监督式微调 \(f\),绕开了真机 TD bootstrap 与 long-horizon credit assignment,这正好解释了为何 baseline 崩而 SimDist 单调升。解冻消融是强证据:解冻 encoder 直接归零,解冻 value 立刻灾难性遗忘。
  2. 刻意制造次优数据才是真正的 workhorse。policy checkpoint 混合 + 时序连续动作噪声,给 planner 提供"错误—恢复—失败"的覆盖;ablation 里"仅专家数据"把 Peg 从 0.90 砸到 0.10,比缩数据量更致命。这把"数据多样性"从一句口号变成了可量化的设计点。
  3. 论证并实证了"不需要 reconstruction"。sim-to-real 要做大量视觉随机化,像素重建会逼 latent 去编码这些被故意随机化的、与任务无关的纹理光照——ablation 里它把 manipulation 砸到 0.32;而 probe 又证明不用重建损失 latent 仍能还原场景。这个 argument 既有道理又有数据。
  4. 为实时规划做的工程是真刀真枪的。chunked 单次前向 dynamics(cross-attention + causal mask,借鉴 AnyCar)让 450 候选 / 8 solver iter 的 MPPI 能在笔记本 4090M 上跑到 50 Hz;极简历史表征(只留最新一帧高维观测)砍延迟。没有这些,sampling-based MPC 在控制频率上根本不可行。
  5. seq2seq return 头的收益是被量化的,不是直觉:换回 per-step MLP,Table Leg 从 0.85 掉到 0.60。轨迹级 attention 对"给候选 plan 排序"确实重要。
  6. 机制证据链构造得好:value-overlay(value 跟踪进度并区分成败)+ 脚部打滑预测(loss 0.076→0.019、微调后能预判 slip)+ planning 可视化,构成了"为什么有效"的完整故事,而不只是堆 headline 数字。

5.2 做得不够好 / 值得质疑的地方

  1. 整套框架硬依赖一个高保真仿真器 + 已解任务的 state-based 专家 + dense reward + 价值函数。"降维成监督式 system ID"的前提,是你已经在仿真里把任务解掉了。对没有可信仿真、或仿真里都拿不到专家/dense reward 的任务(很多真实 contact-rich 操作),这套方法直接不适用。作者也承认"依赖足够广的仿真覆盖"。
  2. reward/value 永久冻结,性能有天花板。conclusion 自己承认:当迁移来的 value 饱和、或不再能区分高水平真机轨迹时,性能会被 cap。要冲到近完美成功率就得更新 value——而那恰好会重新引入它极力规避的灾难性遗忘问题。这是结构性张力,不是小 caveat。
  3. "ranking 跨 sim-to-real 不变"被当公理用,但测试面很窄。支撑它的是一个 peg 例子 + 一张 value-overlay 图。当真机的奖励地形与仿真定性不同(新失败模式、改变"哪些状态好"而非"如何到达"的接触现象)时,这个假设会破。而他们测的任务恰恰是全局结构天然守恒的(peg 几何、locomotion 前进进度)——最该被压力测试的地方反而最没被测
  4. dynamics 微调损失只是 latent 自一致损失(预测 \(z\) 对齐 stop-grad 的真机 encoder),并不直接保证"plan 的 return 排序变好"。\(f\) 单独自适应理论上可能把预测 latent 分布推到 R/V 没被校准的区域。作者用"冻结 encoder 锚定"来辩护,但没有分析 \(f\) 能漂移多远、R/V 在 \(f\) 的输出上还可靠多久
  5. 只能闭合 dynamics gap,无法获得仿真里没有的新技能。planner 从冻结 base policy + 噪声 warm-start,如果冻结的 reward/value 区分不出某个需要的新行为,MPPI 在 base policy 周围采样也发现不了它。它改进的是"仿真已会排序的行为的执行",不是任务级泛化。
  6. baseline 公平性存疑。manipulation 的 RLPD/IQL 用稀疏奖励,而 SimDist 用 dense 蒸馏 reward+value——这等于把"world-model 自适应"和"有没有 dense 信号"混在一起比。SGFT-SAC(同样迁价值)是更干净的对照、SimDist 也确实赢;但 DP/π₀.₅ 拿 100 demo 走 BC,监督范式完全不同,"2×"很难干净归因。
  7. 真机探索安全性没量化。RLPD 在 Foam 上把机器人弄失稳(不报告)——这既说明在线 RL baseline 不安全,也意味着四足对比有一部分是"别人不安全"。但 SimDist 自己在 15–30 分钟"用一个可能错的 dynamics 模型"探索时摔了多少次、是否安全,并没有给数据。
  8. "15–30 分钟"掩盖了巨大前置成本。这是在 100k–100M 仿真轨迹 + 专家 RL + 每个平台 ~28–35h 预训练/数据生成之后的真机时间。真机效率是真的,但"快速自适应"是相对这笔重投资而言。
  9. 数据配方像是逐平台手调、且无敏感性分析。噪声区间分布、checkpoint 选取(manipulation 100k vs 四足 100M、专家占比 36% vs 55.7%)都没给 sensitivity,而"仅专家"ablation 已表明这些旋钮是决定性的。
  10. 评测规模偏小:manipulation 20 trial/点,四足 5 trial × 3 速度。"单调提升"曲线在这么少试验下方差可能不小;我看到的 manipulation 成功率曲线没有 error bar(只有四足的 forward progress 给了 std)。

5.3 值得继续探讨的方向

  • 有选择/保守地更新 value 以突破天花板:trust-region / EWC 式正则、或只在新访问区域更新 value,在不灾难性遗忘的前提下打破 cap——作者点名的 next step。
  • 不确定性感知的 dynamics(或 LAPO 式 latent-action IDM)来 gate 规划:在自适应 dynamics 不可靠处不让 planner 信任 \(f\),而不是处处信任。
  • 替换冻结 base-policy warm-start,引入更广探索以获得仿真没有的新行为,而非只做 dynamics 修正。
  • 量化"ranking 到底多不变":专门设计一个 sim 与 real 对"哪些状态好"产生分歧的任务,找出核心 insight 的破裂点。
  • 接入互联网规模视频先验(作者明说没用)——在仿真薄弱处补表征/覆盖。
  • 在线/持续 dynamics 自适应(vs. 现在"每 20 episode"批量更新)+ 真机数据收集阶段的 safety-aware 探索。
  • 退化到粗糙仿真器 时 SimDist 衰减多少:把 dense sim reward / 高保真接触仿真拿掉,测方法的鲁棒边界。

参考资源

  • 论文 PDF: paper.pdf
  • LaTeX 源码: source/
  • 项目主页: https://sim-dist.github.io
  • 关键 baseline / 相关论文: TD-MPC (hansen2022temporal)、Dreamer (hafnerdream)、SGFT (yin2025rapidly)、Emergent 数据管线 (yin2026emergent)、AnyCar (xiao2025anycar)、RLPD、IQL、Diffusion Policy、π₀.₅、Factory、FurnitureBench