SimDist (Simulation Distillation): 在仿真中预训练世界模型以实现真机快速自适应¶

论文阅读笔记 — 用于后续讨论的概览

1. 基础信息¶

题目: Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation
作者: Jacob Levy*¹, Tyler Westenbroek*², Kevin Huang², Fernando Palafox¹, Patrick Yin², Shayegan Omidshafiei³, Dong-Ki Kim³, Abhishek Gupta†², David Fridovich-Keil†¹（*共同一作，†共同指导）
¹University of Texas at Austin　²University of Washington　³FieldAI
arXiv 编号: 2603.15759（submitted 2026-03，project page: sim-dist.github.io，含开源代码）
关键词: world model, sim-to-real, model-based RL, online planning (MPPI/MPC), system identification, quadruped locomotion, contact-rich manipulation

front teaser Figure 1：左列是 zero-shot sim-to-real 策略的失败（peg 插不进、桌腿拧不上、teflon 斜坡打滑、泡沫塌陷）；右列是 SimDist 只用 15–30 分钟真机数据后的稳定改进。核心卖点是"真机数据极少 + 单调提升"。

2. 文章介绍¶

2.1 解决的领域和问题¶

属于 sim-to-real 机器人学习 / 真机在线自适应。问题是：机器人在新环境里只能拿到少量、混合质量的交互数据（演示、失败、探索动作、旧策略 rollout），如何用这点数据可靠地提升性能。难点集中在 long-horizon、contact-rich 的任务上——小误差会累积，成功需要对多种可能的未来做推理。

现有两条路都不好走： - 端到端策略 finetune（RLPD/IQL/SAC 这类 model-free，以及 OpenVLA/π 这类大策略）在新域上常常崩——表征、奖励、价值、动作选择全部纠缠在一起，自适应时整个决策过程被一起改写，同时还要解 long-horizon credit assignment，于是出现灾难性遗忘。 - 从零学世界模型（Dreamer/TD-MPC）需要 action-conditioned、覆盖广的真机数据，规模上真机采集不起。

2.2 Motivation¶

作者主张 world model 才是利用先验经验做高效自适应的正确抽象：世界模型把决策模块化（环境预测网络 vs. credit assignment 网络分开），于是新数据可以只去精修"动作后果"的模型，而不覆盖掉预训练学到的整套决策结构；再用 online planning 把更准的预测转化为更好的行为，去评估那些机器人没直接经历过的 counterfactual 未来。

但训练可用于规划的世界模型需要海量、覆盖广的 action-conditioned 数据。核心 insight：这些组件不必和真机精确对齐就能支撑规划——

reward / value 模型只需要给真机状态一个正确的"排序"（ranking），让 planner 区分有希望的未来和糟糕的未来即可。这比估计精确 return 要弱得多、也更可迁移。例（peg 插孔）：模型只要把"peg 离孔更近 / 对齐更好 / 已部分插入"排在更前面就够了。
dynamics 模型把动作和未来状态绑定，对 sim-to-real 的 dynamics gap 最敏感——但只要初始化得当，这个 gap 可以用简单的监督式 finetune（在真机数据上）高效修正。

2.3 之前工作的问题¶

类别	代表工作	缺陷
Model-free 真机 RL	RLPD, SERL, IQL, SAC	激进复用 off-policy 数据 + 频繁 critic 更新 → value 过估计、训练不稳；端到端 finetune 易灾难性遗忘
Model-based RL（从零 bootstrap）	Dreamer, TD-MPC	需在稀缺 in-domain 数据上同时 bootstrap 表征 / 价值 / 策略；planner 会主动 exploit 模型误差
经典自适应控制 / MPC / 神经物理引擎	adaptive control, ContactNets, neural physics engines	依赖简化低维状态、物体位姿或接触标签，在 partial-obs、contact-rich 下脆弱
仿真价值迁移	SGFT, Lyapunov value transfer	只迁移价值函数，仍依赖低维状态观测；不做完整 world-model 规划
生成式视频世界模型	Genie, UniPi, GR-x	预测像素、需 demo/inverse model 落地；训练在窄的 expert-like 动作分布上，受真机数据约束、难超越数据

2.4 论文解决方案（一句话）¶

在仿真里用 privileged 专家 + 多样化（含次优 / 失败）数据蒸馏出一个 planning 导向的 latent 世界模型，真机部署时冻结 encoder / reward / value / base policy，只用监督式 system identification 微调 dynamics，再配 MPPI 在线规划——把真机自适应从"不稳定的 RL"降维成"稳定的监督学习"。

2.5 与前序工作的关系¶

直接建立在 TD-MPC（planning-oriented latent WM + MPPI、用 base policy 的噪声扰动输出 warm-start 采样）和 Dreamer 系的世界模型谱系上。
数据生成管线建立在 yin2026emergent（"Emergent" 学生-教师 sim-to-real 管线，也直接提供了本文 manipulation 的专家策略 \(\pi^e\) 与价值 \(V^e\)）。
最近的"兄弟"工作是 SGFT（yin2025rapidly）——只迁移仿真价值函数；SimDist 把它推广成完整世界模型自适应，并在实验里用 SGFT-SAC 隔离"只迁价值"的收益。
单次前向的 chunked dynamics 预测借鉴了 AnyCar（xiao2025anycar）。
复用现成件：ImageNet 预训练 ResNet-18、IsaacLab PPO、Unitree Go2、UR5e。

3. 方法介绍¶

method overview Figure 2：SimDist 全流程。①仿真里用 RL 训出专家策略 + checkpoints + 价值函数；②混合专家/次优策略 + 时序连续动作扰动，生成带 dense reward 与 value 监督的多样化数据；③在原始观测上预训练 planning 导向的 latent 世界模型；④a 部署时迁移表征 + 冻结的 reward/value 做规划，④b 只对 dynamics 做监督式 system identification，部署与微调交替迭代。

3.1 形式化¶

把控制建模为 POMDP \((\mathcal{S},\mathcal{A},\mathcal{O},p,r,\gamma)\)，真实动力学 \(s_{t+1}\sim p(\cdot|s_t,a_t)\)，但真机只能拿到原始观测 \(o_t\)，目标是最大化折扣回报 \(\mathbb{E}[\sum_t \gamma^t r]\)。

关键假设：存在一个近似物理仿真器 \(p_\mathtt{sim}(\cdot|s_t,a_t)\)，并提供对底层状态 \(s_t\) 的 privileged 访问。

世界模型结构（planning-oriented latent WM）：

组件	公式
隐表征	\(z_t = E_\theta(o_t)\)
历史表征	\(h_t = C_\theta(o_{t-H:t-1}, a_{t-H:t-1})\)
隐动力学	\(\hat z_{t+1:t+T} = f_\theta(z_t, a_{t:t+T-1}, h_t)\)
奖励预测	\(\hat r_{t:t+T-1} = R_\theta(\hat z_{t:t+T}, a_{t:t+T-1})\)
价值预测	\(\hat v_{t+1:t+T} = V_\theta(\hat z_{t:t+T})\)
Base policy	\(\hat a_{t:t+H} = \pi_\theta(z_t, h_t)\)

规划（MPPI）：每个控制步采一批候选动作序列，用世界模型评估其轨迹回报 \(\mathcal{R}(a_{t:t+T-1}) = \gamma^T\hat v_{t+T} + \sum_{s=t}^{t+T-1}\gamma^{s-t}\hat r_s\)，再按回报做 importance weighting 算出执行动作。和 TD-MPC 一样，用 base policy \(\pi_\theta\) 的噪声扰动输出去 warm-start 一部分候选序列。

architecture Figure 3：世界模型架构。最新观测进 Latent Encoder，历史观测+动作进 History Encoder，两者共同条件化一个 transformer latent dynamics，单次前向预测整段未来 latent；transformer 的 reward/value 头在整条预测轨迹上做评估；base policy 头出 action chunk 用来 warm-start 采样。

3.2 仿真预训练：多样化数据生成¶

SimDist 建立在"用 privileged state-based 专家收集大规模数据"的管线上，但 planning-based 自适应对模型的要求更强：planner 会主动搜索高价值动作序列、在覆盖薄弱处 exploit 模型误差，所以模型必须在专家分布和真机分布之外都可靠。为此刻意注入次优动作来覆盖错误、修正、失败。

专家训练：先用现成 sim-to-real 管线训出 state-based 专家 \(\pi^e(s_t)\)，同时保存最优价值 \(V^e(s_t)\) 和训练中间 checkpoints \(\{\pi^k\}_{k=1}^K\)。
多样轨迹 + dense 监督（alg:datagen）：每个并行环境随机分一个 checkpoint（或专家），采样对角动作噪声协方差 \(\Sigma_j\)，并在重置时采样连续的加噪时间区间（contiguous noise intervals），在这些区间里给动作加高斯噪声。这样产生大量"偏离最优 manifold 的失败 + 恢复"行为。每步还查询 \(V^e(s_t)\) 得到价值目标 \(v_t\)，并记录 expert flag \(b^e_t\)（区分纯专家动作 vs. 加噪/旧 checkpoint 动作）。得到数据集 \(\mathcal{D}_\mathtt{sim}=\{(o_t,a_t,r_t,v_t)\}\)。
预训练损失（对每个 \(t\) 的预测累加 \(i=0..T\)）：

\[ \mathcal{L}_t^\mathtt{sim} = \sum_{i=0}^T \Big( \underbrace{\|\hat z_{t+i+1}-\mathtt{sg}(E_\theta(o_{t+i+1}))\|_2^2}_{\text{latent dynamics(consistency)}} + c_1\underbrace{(\hat r-r)^2}_{\text{reward}} + c_2\underbrace{(\hat v-v)^2}_{\text{value}} + c_3\underbrace{\mathds{1}_e(a)\|\hat a-a\|_2^2}_{\text{BC(仅专家动作)}}\Big) \]

其中 sg 是 stop-grad，\(\mathds{1}_e\) 只在动作来自未加噪专家时为 1，\(c_{1:3}\) 由各目标 range 归一化得到。注意：因为行为生成 offload 给了 privileged 专家，预训练变成一个简单、平稳的监督目标，不需要 TD learning / bootstrap（区别于在线 MBRL）。

不用 reconstruction loss：理由有二——(1) 多样化数据本身就逼迫 encoder 学到鲁棒表征，不必再付像素重建的算力；(2) sim-to-real 需要大量视觉随机化，像素重建会逼 latent 去编码被刻意随机化的纹理/光照/渲染 artifact（与任务无关），反而伤害迁移。

3.3 真机迁移与高效 dynamics 自适应¶

关键 insight：全局任务结构对底层 sim-to-real dynamics gap 基本不变。例（Peg Insertion）：有意义的 latent 捕捉 peg 和孔的位置，value 编码"到目标的距离"和"通向成功插入的运动"——这些跨 sim-to-real 仍然成立，即便实现它们所需的底层动作在两个域里不同。

于是 SimDist 只 finetune dynamics \(f_\theta\)，冻结 \(C_\theta, E_\theta, R_\theta, V_\theta, \pi_\theta\)：

\[ \mathcal{L}_t^\mathtt{real} = \sum_{i=0}^T \|\hat z_{t+i+1}-\mathtt{sg}(E_\theta(o_{t+i+1}))\|_2^2 \]

encoder 冻结 → 提供一致的 latent target，不需要 bootstrap 表征；并把适配后的 dynamics 锚定在 \(R_\theta/V_\theta\) 被训练去评估的那个 latent 空间上，避免漂移。
冻结的 reward/value 头提供即时的 long-horizon 规划信号，使一个相对短 horizon 的 planner 也能随 dynamics 变准而提升性能——无需在真机做 reward/value bootstrap。
迭代改进（alg:method）：反复"用 planner 收集 \(M\) 个 on-policy rollout → 加入 \(\mathcal{D}_\mathtt{real}\) → 最小化 \(\mathcal{L}^\mathtt{real}\) 微调 \(f_\theta\)"。因为 system ID 能从任意真机轨迹学习，SimDist 天然支持 off-policy，可吸收 demo/play 等异构数据。

Remark：标准 MBRL 必须从稀缺 in-domain 数据里同时 bootstrap 表征、价值、策略；SimDist 把这些难目标 offload 到仿真（数据廉价且充足），从而把真机自适应降维成 dynamics 的监督式 finetune。

3.4 World Model 设计决策（为实时规划服务）¶

planner 要采大量 off-policy rollout 并准确建模 return，下面三点是实时决策的关键：

极简历史表征：把观测拆成 proprioceptive \(o^p\) 和 exteroceptive \(o^e\)，history encoder 只吃 \((o^p_{t-H:t}, a_{t-H:t}, o^e_t)\)——即只保留最新一帧高维（图像/height map）观测。大幅降规划延迟，且经验上缩短 context 反而提升训练稳定性。
Chunked 预测：自回归世界模型要沿规划 horizon 逐步展开，评估大量 rollout 时是并行瓶颈。\(f_\theta\) 改用 transformer（history token 与候选动作序列做 cross-attention + causal mask），单次前向预测 \(T\) 步未来，吃满 GPU 并行，规划吞吐大幅提升。
Seq2seq return 建模：reward/value 不用 per-timestep MLP，而用 transformer 在整条预测 latent 轨迹 \(\hat z_{t:t+T}\) 上做 attention，聚合轨迹级信息 → 更准的 return 估计（ablation 验证）。

3.x Implementation Details¶

	Manipulation (UR5e)	Quadruped (Unitree Go2)
动作	6D 相对 EE 位姿 + 二值夹爪	12 关节位置目标
观测	关节状态 + 3×224×224 RGB（腕/俯视/侧视），各过 ImageNet ResNet-18 → 拼 proprio → MLP → 64 维 \(z\)	proprio + 局部地形 height map（CNN）+ MLP → \(z\)；额外条件化于命令前向/侧向/yaw 速度
数据规模	100k 轨迹（约 36% 纯专家动作）	~100M data points（55.7% 纯专家）；4096 环境 × 25000 步，数据生成 ~7h（RTX 4500 Ada）
专家	`yin2026emergent` 的 \(\pi^e, V^e\)	PPO @ IsaacLab，MLP 3×512，4096 环境 × 5000 iter = 490M steps
H, T / 控制频率	H=T=5 / 5 Hz	H=T=25 / 50 Hz（部署在 RTX 4090M 笔记本）
预训练	2 epoch，batch 256，~200k 更新，Adam 2e-4→1e-4 cosine，10k warmup	2 epoch，batch 512，~3.69e5 更新，~28h（RTX 4500 Ada）
MPPI	250 候选 + 100 噪声 base policy，3 solver iter，elites 64，temp 0.4，γ=0.99	450 候选 + 22 base policy，8 solver iter，elites 64，temp 0.25，γ=0.99

dynamics transformer：manipulation 3 层 / 4 头；reward、value 各 1 层 / 1 头；base policy 4 层 / 8 头；embedding 维度 64。
数据增强：proprio 加零均值高斯噪声；视觉 color jitter / 高斯模糊 / 随机裁剪。
真机更新节奏：manipulation 每 20 episode 更新一次 dynamics（baseline 每 episode 更新）。

4. 结果对比¶

results Figure 4：四个任务的真机学习曲线（横轴=真机数据量）。SimDist（深蓝）随数据快速且单调提升；model-free baseline（IQL/RLPD）几乎不动甚至崩塌；BC（Diffusion Policy / π₀.₅）是固定水平线被反超。manipulation 任务从 Narrow→Wide 初始分布变难时，SimDist 与 baseline 的差距进一步拉大。

总体：SimDist 在所有任务上普遍约 2× 于任意 baseline；标准 RL finetune 经常灾难性遗忘、训练中性能崩塌，SimDist 则单调稳步提升。SGFT（迁价值）避免了崩塌但样本效率显著更差。给 SimDist 加 demo（+BC）只会更好，体现它能吸收异构、混合质量数据。吞吐（success/min）相比 zero-shot 提升约 1.5×–2×。

4.1 四足真机详细结果（每速度 5 trial）¶

微调用数据：Slippery Slope 35.7 min，Foam 32.1 min。RLPD 在 Foam 上把机器人弄失稳，未报告。

任务	速度 (m/s)	Pretrained (zero-shot)	Single-step BC	SimDist	IQL	RLPD
Slippery Slope	0.1	0/5	2/5	4/5	0/5	0/5
	0.3	0/5	1/5	5/5	0/5	0/5
	0.5	0/5	0/5	5/5	0/5	0/5
Foam	0.2	3/5	1/5	5/5	1/5	—
	0.7	2/5	1/5	5/5	2/5	—
	1.2	0/5	2/5	5/5	3/5	—

（forward progress 同样几乎全部满格，如 Slope 0.3/0.5 达 1.82±0.00 m，Foam 全部 3.00±0.00 m。）

4.2 Manipulation¶

任务：Peg Insertion（仿 Factory 16mm 方 peg）、Table Leg（FurnitureBench，桌腿对齐拧入），各从 Narrow (2×2cm) / Wide (35×35cm) 初始网格起。20 次试验/数据点，成功定义为 45 秒内完成。
baseline：RLPD、IQL（稀疏奖励，offline-to-online）、SGFT-SAC（迁仿真价值）、Diffusion Policy、π₀.₅（100 demo BC，含 real-only 与 real+sim co-train 变体）。
SimDist 两个变体：纯 SimDist（只调 dynamics、无 demo）；SimDist+BC（额外用 teleop demo 的动作标签 finetune base policy）。
趋势：任务从 Narrow→Wide 变难，SimDist 与 baseline 的差距扩大；scatter 图显示 SimDist 在整个初始条件空间上比 Diffusion Policy 鲁棒得多。

4.3 关键消融（仿真，manipulation 报成功率 / 四足报每 episode 平均奖励）¶

配置	Peg (SR)	Table Leg (SR)	Quadruped (Reward)
SimDist	0.90	0.85	22.78
50% 数据	0.72	0.61	22.73
10% 数据	0.06	0.02	19.38
仅专家数据（等量）	0.10	0.05	16.68
MLP reward+value 头	0.82	0.60	19.47
加 raw obs reconstruction	0.32	0.21	23.34

要点： - 数据规模与多样性是命门：缩到 10% 直接崩（Peg 0.90→0.06）；"仅专家、等量"也崩（0.90→0.10）——说明真正起作用的是覆盖错误/恢复的多样性，不是单纯数据量。 - seq2seq transformer 头 > per-step MLP（Peg 0.90→0.82，Table Leg 0.85→0.60）。 - reconstruction 对 manipulation 有害（0.90→0.32），对四足略有帮助（22.78→23.34）——印证"像素重建逼 latent 编码被随机化的视觉细节"。 - 解冻消融（真机，fig:unfreeze）：解冻 encoder → 完全失效（冻结的 reward/value 收到分布外 latent）；解冻 value → 重新引入 long-horizon credit assignment → 灾难性遗忘。reward 头因真机拿不到 dense 标签而根本不解冻。

4.4 机制证据¶

value 迁移（fig:value）：成功 rollout 的预测 value 随时间上升，失败（掉 peg）时骤降——冻结 encoder+value 能可靠区分成功/失败。
dynamics 微调有效（Slippery Slope）：latent 预测损失从 pretrained 的 0.076 降到 0.019；解码到前左脚轨迹，pretrained 模型错误地预测 PTFE 面上稳定接触、预测不到打滑，微调后能准确预判 slip。
planning 行为被重塑：微调 dynamics 的采样轨迹反映真实接触动力学，使 planner 选出能应对打滑的方案；pretrained 模型的方案与真实动力学定性不符。

reconstruction probe Figure 5：真机相机观测 vs. 从冻结 encoder 的 latent \(z_t\) 用辅助 probe 重建出的图像。世界模型本身并没有用重建损失训练——这说明仅靠多样化预训练，encoder 的 latent 已经捕捉了真实场景的底层状态。

5. 引申问题 / 讨论¶

5.1 做得好的地方¶

把"自适应"精准切到 dynamics gap 上。核心洞察——reward/value 只需 ranking 正确（序关系），不需估计精确 return——是这篇文章成立的支点。冻结 E/R/V、只监督式微调 \(f\)，绕开了真机 TD bootstrap 与 long-horizon credit assignment，这正好解释了为何 baseline 崩而 SimDist 单调升。解冻消融是强证据：解冻 encoder 直接归零，解冻 value 立刻灾难性遗忘。
刻意制造次优数据才是真正的 workhorse。policy checkpoint 混合 + 时序连续动作噪声，给 planner 提供"错误—恢复—失败"的覆盖；ablation 里"仅专家数据"把 Peg 从 0.90 砸到 0.10，比缩数据量更致命。这把"数据多样性"从一句口号变成了可量化的设计点。
论证并实证了"不需要 reconstruction"。sim-to-real 要做大量视觉随机化，像素重建会逼 latent 去编码这些被故意随机化的、与任务无关的纹理光照——ablation 里它把 manipulation 砸到 0.32；而 probe 又证明不用重建损失 latent 仍能还原场景。这个 argument 既有道理又有数据。
为实时规划做的工程是真刀真枪的。chunked 单次前向 dynamics（cross-attention + causal mask，借鉴 AnyCar）让 450 候选 / 8 solver iter 的 MPPI 能在笔记本 4090M 上跑到 50 Hz；极简历史表征（只留最新一帧高维观测）砍延迟。没有这些，sampling-based MPC 在控制频率上根本不可行。
seq2seq return 头的收益是被量化的，不是直觉：换回 per-step MLP，Table Leg 从 0.85 掉到 0.60。轨迹级 attention 对"给候选 plan 排序"确实重要。
机制证据链构造得好：value-overlay（value 跟踪进度并区分成败）+ 脚部打滑预测（loss 0.076→0.019、微调后能预判 slip）+ planning 可视化，构成了"为什么有效"的完整故事，而不只是堆 headline 数字。

5.2 做得不够好 / 值得质疑的地方¶

整套框架硬依赖一个高保真仿真器 + 已解任务的 state-based 专家 + dense reward + 价值函数。"降维成监督式 system ID"的前提，是你已经在仿真里把任务解掉了。对没有可信仿真、或仿真里都拿不到专家/dense reward 的任务（很多真实 contact-rich 操作），这套方法直接不适用。作者也承认"依赖足够广的仿真覆盖"。
reward/value 永久冻结，性能有天花板。conclusion 自己承认：当迁移来的 value 饱和、或不再能区分高水平真机轨迹时，性能会被 cap。要冲到近完美成功率就得更新 value——而那恰好会重新引入它极力规避的灾难性遗忘问题。这是结构性张力，不是小 caveat。
"ranking 跨 sim-to-real 不变"被当公理用，但测试面很窄。支撑它的是一个 peg 例子 + 一张 value-overlay 图。当真机的奖励地形与仿真定性不同（新失败模式、改变"哪些状态好"而非"如何到达"的接触现象）时，这个假设会破。而他们测的任务恰恰是全局结构天然守恒的（peg 几何、locomotion 前进进度）——最该被压力测试的地方反而最没被测。
dynamics 微调损失只是 latent 自一致损失（预测 \(z\) 对齐 stop-grad 的真机 encoder），并不直接保证"plan 的 return 排序变好"。\(f\) 单独自适应理论上可能把预测 latent 分布推到 R/V 没被校准的区域。作者用"冻结 encoder 锚定"来辩护，但没有分析 \(f\) 能漂移多远、R/V 在 \(f\) 的输出上还可靠多久。
只能闭合 dynamics gap，无法获得仿真里没有的新技能。planner 从冻结 base policy + 噪声 warm-start，如果冻结的 reward/value 区分不出某个需要的新行为，MPPI 在 base policy 周围采样也发现不了它。它改进的是"仿真已会排序的行为的执行"，不是任务级泛化。
baseline 公平性存疑。manipulation 的 RLPD/IQL 用稀疏奖励，而 SimDist 用 dense 蒸馏 reward+value——这等于把"world-model 自适应"和"有没有 dense 信号"混在一起比。SGFT-SAC（同样迁价值）是更干净的对照、SimDist 也确实赢；但 DP/π₀.₅ 拿 100 demo 走 BC，监督范式完全不同，"2×"很难干净归因。
真机探索安全性没量化。RLPD 在 Foam 上把机器人弄失稳（不报告）——这既说明在线 RL baseline 不安全，也意味着四足对比有一部分是"别人不安全"。但 SimDist 自己在 15–30 分钟"用一个可能错的 dynamics 模型"探索时摔了多少次、是否安全，并没有给数据。
"15–30 分钟"掩盖了巨大前置成本。这是在 100k–100M 仿真轨迹 + 专家 RL + 每个平台 ~28–35h 预训练/数据生成之后的真机时间。真机效率是真的，但"快速自适应"是相对这笔重投资而言。
数据配方像是逐平台手调、且无敏感性分析。噪声区间分布、checkpoint 选取（manipulation 100k vs 四足 100M、专家占比 36% vs 55.7%）都没给 sensitivity，而"仅专家"ablation 已表明这些旋钮是决定性的。
评测规模偏小：manipulation 20 trial/点，四足 5 trial × 3 速度。"单调提升"曲线在这么少试验下方差可能不小；我看到的 manipulation 成功率曲线没有 error bar（只有四足的 forward progress 给了 std）。

5.3 值得继续探讨的方向¶

有选择/保守地更新 value 以突破天花板：trust-region / EWC 式正则、或只在新访问区域更新 value，在不灾难性遗忘的前提下打破 cap——作者点名的 next step。
不确定性感知的 dynamics（或 LAPO 式 latent-action IDM）来 gate 规划：在自适应 dynamics 不可靠处不让 planner 信任 \(f\)，而不是处处信任。
替换冻结 base-policy warm-start，引入更广探索以获得仿真没有的新行为，而非只做 dynamics 修正。
量化"ranking 到底多不变"：专门设计一个 sim 与 real 对"哪些状态好"产生分歧的任务，找出核心 insight 的破裂点。
接入互联网规模视频先验（作者明说没用）——在仿真薄弱处补表征/覆盖。
在线/持续 dynamics 自适应（vs. 现在"每 20 episode"批量更新）+ 真机数据收集阶段的 safety-aware 探索。
退化到粗糙仿真器 时 SimDist 衰减多少：把 dense sim reward / 高保真接触仿真拿掉，测方法的鲁棒边界。

参考资源¶

论文 PDF: paper.pdf
LaTeX 源码: source/
项目主页: https://sim-dist.github.io
关键 baseline / 相关论文: TD-MPC (hansen2022temporal)、Dreamer (hafnerdream)、SGFT (yin2025rapidly)、Emergent 数据管线 (yin2026emergent)、AnyCar (xiao2025anycar)、RLPD、IQL、Diffusion Policy、π₀.₅、Factory、FurnitureBench