VideoWorld 2：用 VDM 做 appearance prior 让 latent dynamics 跨越真实世界¶

论文阅读笔记 — 用于后续讨论的概览

1. 基础信息¶

题目: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
作者: Zhongwei Ren¹²*, Yunchao Wei², Xiao Yu², Guixun Luo², Yao Zhao², Bingyi Kang¹, Jiashi Feng¹, Xiaojie Jin¹*†（¹ByteDance Seed / ²北京交通大学）
arXiv 编号: 2602.10102（submitted 2026-02）
关键词: video diffusion model, latent dynamics, appearance disentanglement, dLDM, autoregressive transformer, long-horizon manipulation, handicraft videos, Cosmos, ControlNet
项目页: https://maverickren.github.io/VideoWorld2.github.io/

teaser Figure 1：（左）VideoWorld 2 试图在真实世界视频上学习可迁移的具身知识。作者自建 Video-CraftBench 中"折纸 / 拼积木"长序任务做评估。（右）七步折纸任务的 step-wise 成功率：Wan2.2 14B 这种纯 VDM 视觉精美但策略学不到，VideoWorld 视觉退化、长 horizon 崩塌，VideoWorld 2 通过 appearance/dynamics 解耦在第 7 步仍保持 ~70% 成功率。

2. 文章介绍¶

2.1 解决的领域和问题¶

直接从无标注真实世界视频中学习可迁移的、长 horizon 的任务知识。具体到本文，"知识"被定义为完成任务所需的规则、推理与规划能力（沿用 VideoWorld 1 的术语）。两条评测路径：

Video-CraftBench（自建）：纸飞机 / 纸船折叠 + 三个搭积木任务，~7 小时 / ~9.5k clip 的第一人称教程视频。折纸 40-80 秒、积木 20-30 秒，比任何"娱乐向"视频生成或常规模仿学习长很多；测试集换桌面、纸纹、视角，专门考迁移。
机器人 manipulation：在 1.3M 规模的 Open-X 上预训练 latent code，再 fine-tune CALVIN，考 cross-embodiment / cross-environment 迁移。

2.2 Motivation¶

VideoWorld 1 在 9×9 围棋和 CALVIN 上证明 video-only AR 能学到 reasoning，但作者亲自 stress-test 后承认它在真实世界视频上根本不工作——纸飞机折到第 6 步就崩、新桌面下手部畸变、纸张变色。直接拿 SOTA 的 Wan2.2 14B / HunyuanVideo 13B / Cosmos AR 4B / Cosmos DiT 2B 来 fine-tune 视觉确实好看，但策略学不到——它们用上千 token 编码每一帧，关键动作信息被海量像素细节稀释。作者把症结归到一句话：appearance 和 dynamics 没有真正解耦——之前的 latent action / dynamics model 都用 VAE 风格 reconstruction，loss 会强迫 latent 编码 task-irrelevant 的纹理 / 光照 / 镜头抖动。

2.3 之前工作的问题¶

类别	代表工作	缺陷
纯 VDM fine-tune	Wan2.2, HunyuanVideo, Cosmos AR/DiT	视觉质量很好，但 long-horizon step-wise 成功率第 4 步即崩到 ≤10.6%，第 5 步全为 0；语言指令也救不回来
Latent action / dynamics 模型	LAPA, Moto, AdaWorld, iVideoGPT	只建模 2-frame transition（LAPA / Moto 都是短 horizon）或用普通 VAE reconstruction → latent 仍裹挟 appearance 细节，跨环境立刻失效
VideoWorld 1（自家上一代）	ren2025videoworld	同样的 reconstruction objective 让 latent 编码不相关视觉变化，新场景下生成"手部畸变 / 桌面漂移 / 纸张错位"，长序成功率第 7 步 0.0%（OpenX 预训练后也只到 31.9%）
并行同期的 VDM-guided latent	CoLA (wang2025coevolvinglatentactionworld)	也用 VDM 监督 latent，但限于 2-frame transition、忽略 coarse motion structure，长 horizon 仍仅 40.2%

2.4 论文解决方案（一句话）¶

把 VideoWorld 1 的 LDM decoder 直接替换成预训练 VDM：VQ-VAE 编码器 + learnable queries 仍负责"把未来视觉变化压成 4 个 latent code"，但视觉外观全部交给冻结/微调的 Cosmos DiT 2B 来负责——loss 不再要求 latent 重建像素，因此 latent 被迫专心编码"任务相关 dynamics"；同时保留一个 gradient-stopped 的 ControlNet-like 旁路把 VQ-VAE 解码器产出的 low-fidelity 运动线索送进 VDM，稳定训练。

2.5 与前序工作的关系¶

直接续作：核心架构、问题 framing、IDM 接口都沿用 VideoWorld 1（同一作者团队，第一作者 Zhongwei Ren、Project Lead Xiaojie Jin 不变）。
VDM 选用 Cosmos：Auto-regressive transformer 用 Cosmos AR 4B（next-token 改为预测 latent code），appearance VDM 用 Cosmos DiT 2B（93 帧 / 5 秒 / 480px / 16 fps）。这意味着论文的 base policy 已经是一个相当大的预训练模型，不像 VideoWorld 1 的"300M from scratch"。
ControlNet 信号通路：借鉴 ControlNet (zhang2023control)，把 low-fidelity decoder output 注入 VDM 但 stop gradient。

3. 方法介绍¶

method overview Figure 2：（左）训练 — dLDM 把 future 视觉变化压成 latent codes，自回归 transformer 学习其分布；（右）推理 — 单张新环境初始帧 + task instruction 输入 transformer，预测出 latent code 序列后由 dLDM 解码成执行视频。

3.1 形式化¶

仍是 \(\mathcal{G}=\langle\mathcal{X},\mathcal{A},\rho\rangle\)，但这一次完全没有 IDM：transformer 直接预测下一组 latent code、再由 dLDM（含 VDM）解码成视频片段，每段 93 帧（5 秒），auto-regressively 拼接到 minute-long 序列。机器人任务里下游再接一个 small action head（MLP + \(\ell_2\) loss）做 latent→action。

3.2 LDM 的痛点：appearance 与 dynamics 纠缠¶

dldm Figure 3：（左）VideoWorld 1 的 LDM —— 编码器/queries/解码器全是自己的 MAGVITv2 风格 codec，重建 loss 让 latent 既要扛 dynamics 又要扛 appearance；（右）VideoWorld 2 的 dLDM —— 解码器替换成 pretrained VDM，原 VQ-VAE 解码器降级为"低保真运动提示"通过 ControlNet-like 旁路注入 VDM。

作者的归因：训练 LDM 时，\(\ell_2\) pixel reconstruction loss 强迫 latent code 同时承担"动作变化"和"纹理 / 光照 / 镜头位移"。换新环境后，桌面颜色一变、光照一变，latent code 解码失败 → 长 horizon 漂移。

3.3 dLDM（Dynamics-enhanced Latent Dynamics Model）¶

四个组件：

Causal VQ-VAE encoder：把 93 帧 clip 编码到 \(f_{0:K}\)。
\(N=4\) 个 learnable query：通过 causal cross-attention 从 \(\{f_{0:k}\}\) 抽取变化信息，FSQ 量化得到 \(\{z^n_k\}\)。Vocabulary 仅 1000（FSQ [8,5,5,5]），比 VideoWorld 1 的 64k 小两个数量级——因为 appearance 不用 latent 来扛了。
原 VQ-VAE decoder（保留为 motion prior 通道）：用 \(f_0 + z\) 重建出 low-fidelity 运动视频，通过 ControlNet-like 旁路注入 VDM，但梯度全部 stop（关键 ablation：不 stop 反而退化 ~20pp）。这一步称为"warm-up"训练策略，先用原 reconstruction loss 训出能产生"手 / 物体位移"的低保真视频，再切换到解耦方案。
Pretrained VDM (Cosmos DiT 2B)：吃 (initial frame, low-fidelity motion video, latent codes via causal cross-attention) → 输出高保真未来帧。Causal cross-attention 保证生成时刻 \(t\) 只能 attend 到 \(\leq t\) 的 latent，防止 future leakage。Full fine-tune VDM（freeze 与 LoRA 都明显差）。

3.4 Auto-regressive Transformer (Cosmos AR 4B)¶

输入 = task instruction (text) + initial frame + history latent codes；输出 = next \(\{z^n_k\}\)。训练 loss = next-token CE。推理时 latent code 序列被 dLDM 解码成 93 帧 clip，下一段用上一段的最后一帧续接 auto-regressively 直到全任务完成。

3.5 Implementation Details¶

项目	值
dLDM clip 长度 \(T\)	93 帧（~5s @ 16 fps）
Query 数 \(N\)	4
FSQ levels / Vocabulary	[8, 5, 5, 5] / 1000
dLDM 优化器	AdamW, lr=1e-4, wd=0.1, \((\beta_1,\beta_2)=(0.9,0.99)\)
AR Transformer 优化器	AdamW, lr=3e-4, wd=0.05, \((\beta_1,\beta_2)=(0.9,0.98)\)
Batch size	128 (dLDM) / 256 (AR)
Training iter	1e5 (dLDM) / 5e4 (AR)
Trainable	AR transformer + dLDM (encoder/queries/decoder) + DiT (full FT) + projection layer
Cosmos AR	4B
Cosmos DiT	2B
输出分辨率	480px
训练数据	Video-CraftBench (~7h / 9.5k clip) 单训或 Video-CraftBench + Open-X (1.3M) 联训

4. 结果对比¶

4.1 Video-CraftBench（折纸 + 积木 + 视觉质量）¶

res_show Figure 4：定性结果 —— VideoWorld 2 在 unseen 桌面 / 纸纹下能稳定走完 7 步折纸序列、最后产出可识别的纸飞机 / 纸船。这是 Wan2.2/HunyuanVideo 都做不到的。

Method	Fine-tuning	折纸 step-1	2	3	4	5	6	7	积木 Human	Tower	Horse	SSIM↑	LPIPS↓
Cosmos AR 4B	Craft-text	68.4	56.7	11.5	3.3	0.0	0.0	0.0	10.1	18.0	12.0	0.643	0.312
Cosmos DiT 2B	Craft-text	73.4	63.3	20.0	6.7	0.0	0.0	0.0	24.2	21.3	19.7	0.680	0.264
Hunyuan-13B	Craft-text	76.9	68.1	27.5	5.8	0.0	0.0	0.0	30.9	38.4	31.5	0.703	0.255
Wan 2.2 14B	Craft-text	81.2	75.0	30.4	10.6	0.0	0.0	0.0	39.7	42.6	34.1	0.719	0.237
LAPA	Craft	—	—	—	—	—	—	—	—	—	—	—	—
Moto	Craft	19.1	11.7	3.3	0.0	0.0	0.0	0.0	11.5	10.1	9.8	0.585	0.394
AdaWorld	Craft	43.6	39.8	27.4	10.8	0.0	0.0	0.0	20.7	13.1	15.0	0.611	0.378
VideoWorld	Craft	70.3	66.7	42.5	21.3	6.7	0.0	0.0	23.8	33.9	27.8	0.680	0.351
VideoWorld 2	Craft	97.2	95.3	90.0	83.3	81.4	74.6	68.8	70.0	81.5	80.9	0.770	0.205
iVideoGPT	OpenX & Craft	23.1	18.7	13.3	3.7	0.0	0.0	0.0	15.3	11.0	12.6	0.588	0.390
Moto	OpenX & Craft	43.1	35.3	30.7	25.5	18.3	9.7	0.0	17.4	15.3	16.0	0.596	0.387
AdaWorld	OpenX & Craft	49.5	41.6	34.8	30.7	22.3	19.8	13.0	37.4	29.8	29.1	0.624	0.365
CoLA	OpenX & Craft	83.5	74.4	69.1	64.8	52.3	49.8	40.2	54.1	52.4	49.9	0.668	0.289
VideoWorld	OpenX & Craft	91.7	75.0	68.2	63.1	51.7	48.2	31.9	47.3	52.7	49.8	0.601	0.389
VideoWorld 2	OpenX & Craft	98.2	96.4	90.1	86.7	83.3	81.7	72.3	74.0	83.0	85.8	0.774	0.193

亮点：

不需要 OpenX 预训练 就能 step-7 达到 68.8%，已经把所有 baseline（含 SOTA VDM）甩开 30+ 个百分点。
加入 OpenX 后 step-7 进一步到 72.3% —— 增量虽不如别的 baseline 巨大（因为 baseline 起点本来就低），但 SSIM 0.770 → 0.774 / LPIPS 0.205 → 0.193 视觉质量稳步提升。

4.2 CALVIN（长序协议，5-task 链式）¶

Idx	Method	Pretraining Type	Pretraining	Fine-tuning	1	2	3	4	5	Avg. Len.
1	Transformer (Oracle)	—	—	ABCD→D	80.9	55.6	44.5	31.3	24.6	2.36
2	Transformer (Oracle)	—	—	10% data	50.5	35.4	20.1	5.2	0	1.11
3	LAPA	Latent	ABCD→D	10% data	74.4	45.8	25.2	15.3	2.3	1.49
4	VideoWorld 2	Latent	ABCD→D	10% data	75.8	47.9	31.8	20.4	9.7	1.87
5	Transformer (Oracle)	Video	OpenX	ABCD→D	85.9	60.4	46.0	30.7	23.0	2.46
6	LAPA	Latent	OpenX	ABCD→D	84.0	58.8	46.2	35.4	27.0	2.51
7	VideoWorld 2	Latent	OpenX	ABCD→D	88.5	64.6	55.8	47.5	30.9	2.88

关键观察：

In-domain (10% data) 时，VideoWorld 2 latent pretraining 比 LAPA 同协议长 0.38 个 Avg.Len.，主要差距在 step-3 (31.8 vs 25.2) 和 step-4 (20.4 vs 15.3)。
Cross-domain (OpenX → CALVIN) 时，VideoWorld 2 的 Avg.Len. 2.88 比 video-pretrained 同源 oracle (2.46) 还高 —— 说明 latent code 形态比 raw video token 更 transferable。

4.3 关键消融（Table tab:abla_arch + tab:abla_N + tab:abla_T + tab:abla_codebooksize + tab:abla_vdm）¶

(a) dLDM 架构 — 主消融

Pretrained VDM	Decoder Stop-Grad	ControlNet 通路	Paper	Block	LPIPS↓
✗	✗	✗	0.0	28.5	0.312
✓	✗	✗	30.3	45.2	0.297
✓	✓	✗	47.3	54.7	0.275
✓	✗	✓	51.1	52.0	0.213
✓	✓	✓	68.8	77.5	0.205

把 VDM 加进来 → step-7 从 0% 到 30%；stop-grad → +17pp；ControlNet 通路再 +21pp。三件套缺一不可。

(b) Codebook size：8 → 50.4 (step-7) → 1000 → 68.8 (peak) → 4096 → 50.4 → 64k → 29.4。codebook 与 VideoWorld 1 不同（V1 用 64k 性能最佳），V2 因为不用承担 appearance 信息所以 1000 就够 —— codebook 越大反而越糟，作者归因为 "encoding extraneous noise 阻碍 dLDM 收敛"。

(c) Compression length \(T\)：2 → 19.1 (step-7) → 9 → 55.4 → 49 → 65.3 → 93 → 68.8 → 177 → 69.0（饱和）。LAPA 类似的 2-frame 设置只到 19% step-7，再次说明短 horizon latent 撑不起 minute-long 任务。

(d) Query 数 \(N\)：1 → 41.9 → 2 → 55.1 → 4 → 68.8 → 8 → 65.0。\(N=8\) 时 LPIPS 略降但 success 反退，"encoding noise"。

(e) VDM 训练策略：random init → 0.0；freeze → 31.7；LoRA → 50.9；full fine-tune → 68.8。预训练 prior 缺一不可，但还要全 fine-tune。

fail_case Figure 5：baselines 在 Video-CraftBench 上的失败模式 —— Wan2.2 折出歪扭的纸张但步骤错乱、VideoWorld 1 在第 4-5 步开始出现"指头融化 / 桌面颜色漂移"、AdaWorld 频繁错位。这张图是 §5.2 critique 的直接 evidence。

umap Figure 6：（左）有 VDM prior — 同一动作（向右移）在 CALVIN vs Bridge 两个环境的 latent code 在 UMAP 空间紧密聚类；（右）无 VDM — latent code 强烈按环境 cluster 而非动作。Visual 直观，但和 VideoWorld 1 的 UMAP 一样属于"软证据"，详见 §5.2 critique 8。

5. 引申问题 / 讨论¶

5.1 做得好的地方¶

"用预训练 VDM 承担 appearance 模型、迫使 latent code 专心 dynamics"是一个真正的架构级解耦。VideoWorld 1 的 LDM 用 reconstruction loss → latent 不得不编码外观；VideoWorld 2 把外观职责剥离给 VDM 后，latent vocabulary 从 64,000 缩到 1,000 都不掉点（甚至更好），这是直接证据，比单看 UMAP 可信得多。
Stop-gradient 的 ControlNet 旁路：用 自己 VQ-VAE 解码器 的低保真输出作为 VDM 的 motion guidance，但梯度不回传到 latent —— 既给 VDM 一个稳定运动提示，又防止 reconstruction loss 反向污染 latent。Tab. abla_arch 的 row 3 vs 5 (+21pp) 单独验证了这个设计，非常工程化但有效。
Warm-up + 切换训练 schedule：先让 dLDM decoder 单独训出"有运动但低保真"的 latent，再切到 disentangled 方案。如果直接 cold-start，作者明确说"slow and prone to incorrect motion"。这种"分阶段绕开局部解"的工程经验在论文里讲得很坦诚。
Codebook 与 VideoWorld 1 反向调整：V1 上 codebook 越大越好（直到 262k 崩），V2 上 codebook 1000 即可、4k+ 即退化。这个反差自洽地支持了"V2 不再需要 latent 记忆外观"的论点，是一个 负面预测被验证 的例子。
Long-horizon CALVIN 协议（5-task 链式 Avg.Len.）取代 V1 的独立 task 评估：作者主动选了对 latent 不利的协议（错一步全错）来评估自己 —— 一个研究者职业道德层面的小亮点。
公开和续作野心：自建 Video-CraftBench、配套训练 DINOv2 分类器评测 + 96.1% test accuracy + 25k 标注帧，作者明确表示要开源代码 / 数据 / 模型 —— 比"代码 coming soon"的 placeholder 类工作可信。

5.2 做得不够好的地方 / 值得质疑的地方¶

真正的"无标注视频"声明被 Cosmos 4B + 2B 的预训练大模型偷渡了。论文反复强调"learn knowledge from unlabeled videos"，但 AR 主干 Cosmos AR 4B 和外观 VDM Cosmos DiT 2B 都是已经在大规模 video-text pair 上预训过的模型。Cosmos 训练时显然包含 caption 监督。换句话说，本文的"无标注"只是 fine-tune 阶段无标注，预训练阶段的视觉先验是带语言监督的。和真正 from-scratch 的 VideoWorld 1 对比并不对等。
VideoWorld 1 自家 baseline 在 Tab. 1 的表现存在 unfair 嫌疑。V1 (Tab. 1 row 8) step-7 = 0.0%，OpenX 预训后 31.9%。但 V1 原文 CALVIN 上能跑到 75% 单步 success，这里 30+ pp 的差距完全来自 "real-world handicraft vs synthetic" 域迁移失败。读者拿到这张表会以为 V1 "本来就崩"，但实际 V1 的设计假设里从未 promised 真实世界泛化—— 这是 任务移到 V1 不擅长的领域 而非 V1 设计本身崩塌。需要更平衡的 framing。
DINOv2 评估分类器的训练数据包含"所有 model 生成的 successful trajectory" 各 10k 帧。这意味着分类器在评估时见过 VideoWorld 2 风格的成功状态。即便论文声称"only judges shape geometry"且 disregards appearance，但 96.1% acc 是在包含 model-generated 数据的 25k 集上得到的，跨方法公平性需要更多评估（比如只用 ground-truth-only 训练的 classifier 复测一遍）。
OpenX 预训练后差距没那么大了 — Tab. 1 第二组里 CoLA (40.2% step-7) 是 VideoWorld 2 (72.3%) 的 56%。两者都用 VDM 做 disentanglement，差异只在 multi-frame vs 2-frame transition、是否复用 VAE decoder coarse motion。但 CoLA 是 concurrent work，并未必经过同等工程投入。"VideoWorld 2 通过 multi-frame + ControlNet 把 CoLA 拉开 30pp" 这个增量更像 implementation 调优而非范式优势。
VDM full fine-tune —— 一旦 freeze 或 LoRA 都明显差（68.8 vs 50.9 vs 31.7）。这暴露一个隐性结论：所谓的"VDM 提供 appearance prior"并不是真的拿来用，而是把 VDM 当成"可适应的高容量 image-to-video 模型 + 适当的 init"。一个 2B DiT 全 fine-tune 在 480px / 93 帧 / 16 fps 下的训练 / 推理成本远超 VideoWorld 1，但论文连 GPU 时数都没给。
缺乏 latency / 计算成本数字。整个论文一字未提：训练 / 推理 GPU·hours、单步 latent 解码延迟、生成一段 93 帧视频需要的扩散 step 数、long-horizon 推理累积时间。一条 minute-long 折纸任务靠 segment-by-segment auto-regressive 拼，每段 5 秒就要跑一次 2B DiT，实用性如何？读者无从判断。这一点对工程读者来说是最大的盲区，VideoWorld 1 至少给出了 8×A100 / 4 天的训练成本，V2 反而退步。
真实世界 ≠ 真实部署。"Real-world videos" 在论文里指 互联网上的人类教程视频，不是真机器人执行。CALVIN 仍是仿真。所谓 "transferable knowledge" 还没在真机器人上验证 —— motivation 里"小孩看视频学折纸"的类比并没有成立到"机器人看视频学折纸"，模型生成的只是另一段视频，不是机器人动作。这是 V1→V2 共同的根本局限。
UMAP 可视化继承自 V1 的方法学陋习。Fig. umap 看上去很说服人 —— "同动作跨环境聚类"。但 UMAP 的聚类强烈依赖参数（n_neighbors / min_dist）和数据子采样，作者随机选 4000 trajectory、按粗粒度 4 类（up/down/left/right）打标签。这个证据强度比 quantitative ablation (Tab. abla_arch row 2 vs 1: 30pp gain) 弱很多，但被放在叙事中心位置。
CALVIN cross-domain "OpenX 预训练" 与 "video 预训练 oracle" 的对比并不完全干净。Tab. 2 idx 5 是 video next-token 预训练 / idx 7 是 latent 预训练，两者都基于 OpenX 1.3M，但 idx 5 用 raw video tokens 训 transformer，idx 7 用 latent codes 训 transformer。latent 序列短得多，模型容量分配差异巨大，不能简单归因为"latent 更 transferable"。
没有讨论 latent code 的语义可解释性。V1 上作者尝试通过 LDM decoder 把 code 重渲染来 inspect "模型在想什么"，V2 里这条 inspect path 被 VDM 吃掉了 —— latent code 解出来的全部交给 VDM 渲染外观，反而比 V1 更黑箱。Fig. dldm_vis（"video clips with similar latent dynamic features"）尝试做点定性补救，但很有限。
CoLA 比较的引用：Tab. 1 把 CoLA 归类到 concurrent work，文中也明确强调"CoLA 也用 VDM 但限于 2-frame"。问题是 CoLA 的原始论文里并没有针对 long-horizon 任务 —— 作者把 CoLA 应用到自家 benchmark、得到 40.2% step-7，然后说"validates our design"。把别人的方法搬到自己 benchmark 上跑得不如自己，是论文学界很常见的 contestable framing。

5.3 值得继续探讨的方向¶

真机器人部署：把 dLDM 输出 + small action head 接到真机器人 manipulation 上（V1 都没做、V2 也回避）。本文的全部 motivation 都指向"从人类视频学折纸然后让机器人折"，但 step 0 仍未完成。
VDM 端的高效化：能否用蒸馏（如 Wan2.2 → 1B distilled）把 VDM 降到 0.5B 量级，同时维持 long-horizon 一致性？
Latent code 的因果可解释：能否用 mechanistic interpretability 技术分析 4 个 query 各自承担什么 dynamic（V1 用 intervention 已开了头）？
多模态条件：VideoWorld 2 用 first frame + text 作为 transformer 条件，能否加入 force / tactile / audio？
长 horizon 一致性：作者承认 segment 拼接会逐渐 drift 颜色 / 光照（appendix），是否能引入 episode-level latent identity loss 强制长序一致？
VDM 自蒸馏到 dLDM：既然 full FT VDM 就是关键，能否把 VDM 蒸馏到 dLDM 自身，去掉 Cosmos 依赖？
公平 baseline：把 V1 在 V2 的 dLDM 配置（保留 V1 的 LDM 但换 Cosmos AR 4B 主干）做一组消融，区分 "AR 主干升级" 与 "dLDM 解耦" 各自的贡献。
CoLA 的限制是否真的来自 2-frame？ 在 CoLA 配置上把 transition window 从 2 扩到 93，是否就能补齐与 V2 的 30pp gap？这才是真正干净的 disentanglement vs window-size ablation。

参考资源¶

论文 PDF: paper.pdf
LaTeX 源码: source/
项目页：https://maverickren.github.io/VideoWorld2.github.io/
前作：VideoWorld (2501.09781)
关键 baseline / 相关论文：CoLA (wang2025coevolvinglatentactionworld), LAPA (lapa_ye2024latent), Moto (chen2025moto), AdaWorld (adaworld), iVideoGPT (wu2024ivideogpt), Cosmos (agarwal2025cosmos), Wan 2.2 (wan2025wan), HunyuanVideo (kong2024hunyuanvideo), ControlNet (zhang2023control), VideoWorld 1 (ren2025videoworld)