Paper Notes¶
读论文笔记归档。每篇论文有结构化的中文叙述总结,覆盖 motivation、方法、结果,以及一段直率的批判性讨论。
浏览方式¶
- Papers — 按时间倒序看所有论文(左侧 sidebar)
- 工程笔记 — 部署 / 推理 / 踩坑记录(非论文)
- Tags — 按方向 / 方法 / 领域交叉查找
- 顶部搜索框 — 全文搜索,对中英文混排都有效
工程笔记 / Engineering Notes¶
部署与推理过程中沉淀的经验和踩坑记录,区别于论文总结。
-
TensorRT MHA:输入尽量静态 + sequence length 对齐到 8 (2026-06-05) TensorRT 跑 MHA 时输入最好静态、seq_len 对齐到 8 的倍数,否则精度与性能双重踩坑。实战案例:同一模型 DriveOS 703 转换后精度与 PyTorch 一致,705 不一致,根因是某个
seq_len = 900(非 8 倍数),padding 对齐到 904 后恢复——疑似不同 TRT 版本选到了不同的 fused MHA kernel,把潜在的对齐假设暴露了出来。 -
MuonClip / QK-Clip 与 QKV bias:为什么 q/k projection 要 bias=False (2026-06-08) QK-Clip 只缩放权重
W_q/W_k、从不碰 bias,它隐含假设 Q/K 无 bias(Kimi/DeepSeek/LLaMA/Qwen3 皆bias=False)。给一个带 bias 的 attention(如 FlatFormer 默认nn.Linear(bias=True))套上 Muon + QK-Clip,网络会把 logit 幅度藏进 QK-Clip 够不到的 bias 路径——weight 被反复缩到学死、qkv bias 越长越大,skip connection 还会掩盖问题。修复:q/k(最好连 v/o)设bias=False,或改用 QK-Norm。
最新¶
Prior VLA — π 系列之前的开源 generalist 基础(Octo / OpenVLA / OFT)¶
-
Octo: An Open-Source Generalist Robot Policy (arXiv 2405.12213, 2024-05, RSS 2024) Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, … Chelsea Finn, Sergey Levine — UC Berkeley + Stanford + CMU + Google DeepMind 首个完全开源(weights / code / data loader / 训练 pipeline 全部公开)的 generalist robot policy,奠定后续 OpenVLA / π 系列等所有开源 VLA 的基础设施。架构是 transformer-first(shallow CNN patch encoder + 大 ViT-B 93M 主干 + 轻量 diffusion action head),核心 design 是「模块化 token 序列」——任务(语言走冻结 t5-base / 目标图像走 patchify)、观测、readout token 都是 modality-specific tokenizer 产出后拼接,block-wise causal mask 让缺失模态自动 mask 掉、不需对齐预处理;readout token 借 BERT
[CLS]的「被动只读」设计,下游加 head 不影响主干表征。训练数据是 OXE 25 个数据集约 800K trajectory(按「more diverse 翻倍 + 重复多 down-weight」启发式 weighting,后被 OpenVLA 沿用)。下游 finetune 时主干完全不动,只换 tokenizer/head 就能适配双臂、力矩输入、关节位置控制等全新观测/动作空间——这是 RT-X 系列做不到的关键差异。结果:zero-shot 跨本体平均比 RT-1-X (35M) 高 29pp、和 RT-2-X (55B) 持平(1571× 更小参数);6 个 finetune setup 全用同一套超参,单卡 A5000 5 小时收敛,平均 72% 超次优 baseline 52pp。最干净的消融:diffusion head 83% vs continuous-MSE 35% vs discrete-token 18%,diffusion 的多模态 + 连续精度组合在 93M 主干上拿到 65pp 收益;ViT-first 83% vs ResNet-50+Transformer 70%;25-dataset 83% vs 11-dataset 60% vs single-robot 43%。主要疑点:规模偏小(93M)且没用 Internet 预训 VLM,在 semantic 泛化和 language grounding 上偏弱(这正是下一篇 OpenVLA 要补的);diffusion head 多步去噪的延迟没在 zero-shot 里公平对比(OFT 后来反过来证明 L1 regression 在大主干上几乎打平);离散动作 18% 的低分疑似是「小主干 + 离散表征」的双重退化而非 discrete 本身的本质缺陷(OpenVLA 7B + discrete 拿到 76.5% LIBERO);所谓「跨本体 zero-shot」其实都是 OXE 见过的机器人;single-robot baseline 43% 没控 epoch 总步数;VC-1 baseline 不公平(只是 vision encoder + MSE 头)。 -
OpenVLA: An Open-Source Vision-Language-Action Model (arXiv 2406.09246, 2024-06, CoRL 2024) Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, … Sergey Levine, Percy Liang, Chelsea Finn — Stanford + UC Berkeley + TRI + Google DeepMind + Physical Intelligence + MIT 把 RT-2 的「VLM + 离散 action token」配方做成开源版本,奠定整个开源 VLA 生态的事实标准。架构:Prismatic-7B VLM(Llama 2 7B LLM + 融合的 DINOv2 + SigLIP 双视觉编码器——SigLIP 给语义、DINOv2 给空间推理,channel-wise concat 投到语言 embedding 空间)在 OXE 970K 真机数据上 full finetune;动作走 RT-2 风格 256-bin discretization(用 1-99 percentile 切 bin 宽避开 outlier,比 RT-2 的 min-max 更鲁棒)+ 覆盖 Llama tokenizer 最末 256 个不常用 token 实现 autoregressive next-token CE 训练。training 用 64×A100 跑 14 天(21.5K A100-hours),跑 27 epoch 直到 action token accuracy >95%(远超 VLM 的 1-2 epoch,暗示 VLM→VLA 的分布漂移比想象大)。关键 design 决定(Bridge 上预实验得出):Prismatic > LLaVA > IDEFICS(+10pp / +35pp);vision encoder 必须 unfreeze(与 VLM 标准训练建议相反,因为机器人需要细粒度空间细节);224×224 = 384×384(与 VLM benchmark 趋势相反)。结果:BridgeData V2 上比 RT-2-X(55B)高 16.5pp 用 1/7 参数;Franka 7 任务 finetune 平均最高、且是唯一在所有 7 任务都 ≥50% 的方法。LoRA rank=32 几乎打平 full FT(68.2 vs 69.7%)但只动 1.4% 参数 + 单卡 A100 10-15 小时——这是 OpenVLA 最有持久影响的工程贡献;int4 量化不掉点(71.9 vs 71.3%)且显存降到 7GB(int8 反而掉点的根因是吞吐降到 1.2 Hz、与 5Hz 控制频率不匹配——一个很关键的诊断)。主要疑点:autoregressive 推理太慢(6 Hz on 4090,1.2 Hz on A5000 int8)没法上 25-50Hz 双臂(同作者后续 OFT 把这件事翻案);没有 action chunking / temporal smoothing 导致 narrow task 上输 Diffusion Policy;DROID 加入失败、训练后 1/3 移除这个负面结果没追究根因(直到 π₀-FAST 用 DCT+BPE tokenizer 才搞定 DROID);与 RT-2-X 的 16.5pp 优势纠缠了三个变量(数据多、清洗、双 vision encoder)没拆开;semantic 泛化输给 RT-2-X(缺 Internet 数据 co-finetune,被 KI 配方后续修补);27 epoch 暗示 VLM→VLA 分布偏差很大但论文没深入;design 决定来自 Bridge 单数据集 sweep 而非 OXE 全集验证。
-
OpenVLA-OFT: Fine-Tuning Vision-Language-Action Models — Optimizing Speed and Success (arXiv 2502.19645, 2025-02) Moo Jin Kim, Chelsea Finn, Percy Liang — Stanford(OpenVLA 作者的自我修订) 系统研究 VLA finetune 阶段的三个 design 轴——decoding strategy(autoregressive vs parallel)× action representation(discrete vs continuous)× learning objective(next-token CE / L1 regression / diffusion)——得出 OFT 配方:parallel decoding(双向 attention 一次出全部 action)+ action chunking(K=8/25)+ 连续动作 + L1 regression,可选叠 FiLM(针对 ALOHA 多视角下语言 grounding 失效问题,hidden-dim-level γβ 调制视觉特征,注意不是 token-level,naive 实现会失败)。逐步消融:OpenVLA + PD&AC 把 LIBERO 76.5 → 90.2(+13.7pp,chunking 是大头);+ Continuous-L1 再 +5pp 到 95.3;+ wrist+proprio 输入到 97.1,反超 π₀ 的 94.2 + RDT-1B——而后两者用了 bimanual 预训而 OpenVLA base 没见过双臂,证明「好的 finetune 配方 > 更大更新的预训数据」。推理速度从 4.2 Hz → 109.7 Hz(26×),ALOHA 双臂 25Hz 实时控制下平均比所有 baseline 高最多 15pp。最有信号的发现:L1 regression 在 7B 主干上几乎打平 diffusion(95.3 vs 95.4,但 diffusion latency 5.7× 高)——挑战 Octo / π₀ 一脉的「VLA 必须 diffusion」共识,原因是主干容量足够大时 L1 就能模出多任务分布,diffusion 多模态性收益边际。RDT-1B 失败模式(错过 bowl 仍倒空中 = over-rely on proprio)vs π₀(能 recover from grasp failure)的质性分析很犀利。主要疑点:「反超 π₀」纠缠了 base model + finetune 配方两个变量,没把 OFT 配方反过来套到 π₀ 上验证;LIBERO 是 per-suite 单任务 finetune,不是真 generalist;ALOHA 4 任务用 rubric partial-completion 评分,统计显著性偏弱;FiLM 在 LIBERO 不需要而 ALOHA 必需的差异(视觉 token 数 256 vs 768,语言信号被稀释)只在 limitation 一句带过没做 dedicated ablation;L1 vs diffusion 训练步数不匹配(diffusion 100-250K vs L1 50-150K);没和 FAST/MiniVLA 同台比 throughput;put-X-into-pot 用 300 demos 已不算典型 finetune;多模态 demo 下 L1 mean-collapse 风险在 focused dataset 下被掩盖。L1 vs diffusion 这条争论至今未完全 settle。
π 系列 (Physical Intelligence) — 从 π₀ 到 π₀.₇¶
-
π₀: A Vision-Language-Action Flow Model for General Robot Control (arXiv 2410.24164, 2024-10) Physical Intelligence (Kevin Black, Noah Brown, Danny Driess, … Chelsea Finn, Sergey Levine 等) π 系列的奠基之作:在预训练 PaliGemma 3B VLM 上挂一个 300M 的 flow matching「action expert」(独立权重、双向 attention 互通),用 conditional flow matching 一次性并行生成 50 步连续 action chunk,支持高达 50Hz 控制。预训练用 ~10,000 小时、跨 7 种机器人本体、68 个任务的混合数据,配 pre-training/post-training 配方,能做叠衣服、收拾餐桌、装纸箱这类灵巧长程任务,在 out-of-box 与 fine-tune 评测上大幅超过 OpenVLA、Octo(VLA 基线)与 ACT、Diffusion Policy(灵巧操作基线)。主要疑点:数据与模型闭源不可复现;π₀-small 这个主对照同时混入「模型变小」与「无 VLM 初始化」两个变量无法解耦;评测几乎全是 in-house 任务、无公共 benchmark 数字表(结果多以 bar chart 呈现);flow 采样的多步推理延迟、以及没有干净的「flow matching vs autoregressive」同台消融(这点正是下一篇 FAST 要补的)。
-
FAST: Efficient Action Tokenization for Vision-Language-Action Models (arXiv 2501.09747, 2025-01) Physical Intelligence (Karl Pertsch, Kyle Stachowicz, … Chelsea Finn, Sergey Levine 等) 提出基于 DCT + BPE 的 action tokenizer:先把 action chunk 做 discrete cosine transform 转到频域、量化,再用 byte-pair encoding 无损压缩,从根本上解决 naive per-dimension binning 在高频/灵巧数据上因相邻 token 高度相关、训练信号塌缩而「学不动」的问题。基于它训练的 autoregressive π₀-FAST 性能匹配 SOTA flow matching π₀,训练快约 5×,并首次在 DROID 上得到可 zero-shot 泛化的 generalist policy;同时开源在 1M 真实 action 序列上训练的通用黑盒 tokenizer FAST+(压缩比 1.75×–13.2×)。主要疑点:AR 逐 token 解码推理慢(~750ms vs flow ~100ms),token 数随 chunk 长度增长;BPE 引入数据集依赖;DCT 隐含动作平滑假设;与 flow matching 的 compute-matched 对照是否完全公平仍可商榷。
-
π₀.₅: a Vision-Language-Action Model with Open-World Generalization (arXiv 2504.16054, 2025-04) Physical Intelligence 在 π₀ 之上引入异构 co-training 配方,横跨六类数据源(mobile-manipulator、多环境 static-arm、cross-embodiment 实验室、web、high-level 子任务、verbal-instruction),让 ~400h 移动操作数据就足以撑起 open-world generalization。单一统一模型做分层 chain-of-thought 推理:先用文本预测 high-level 语义子任务、再生成 low-level flow matching action chunk,采用「discrete FAST-token 预训练 + flow matching 后训练」+ 防泄漏 attention mask。是首个能在完全没见过的真实家庭里清洁厨房/卧室、完成 10–15 分钟多阶段任务的端到端学习系统,消融显示 cross-embodiment 与 web data 对泛化至关重要。主要疑点:「新家庭」是否真属 unseen 分布、success 评测多为 in-house 主观判定、闭源不可复现、两段式推理的错误传播与延迟、generalization 主张的统计显著性。
-
KI: Knowledge Insulating Vision-Language-Action Models — Train Fast, Run Fast, Generalize Better (arXiv 2505.23705, 2025-05) Physical Intelligence (Driess, Springenberg, Ichter, Yu, Li-Bell, Pertsch, Ren, Walke, Vuong, Shi, Levine) 正面回答"把一个随机初始化的 flow-matching action expert 挂到预训练 VLM 上会污染语言知识、训得慢、语言遵循差"这一 π₀ 谱系的核心痛点,提出 Knowledge Insulation (KI) 配方:在 backbone ↔ expert 的 attention 路径上 stop-gradient(让 action expert 的梯度不反传回 backbone),同时让 backbone 继续做 FAST 离散动作 + 通用 VLM 数据(VQA / web caption)next-token prediction,仅 action expert 走 flow matching 学连续动作;既保住 VLM 预训练知识与 OOD 语言遵循(mobile manipulator 上从 35% 提到 86%),又拿到快速连续动作输出,并把训练速度提升约 7.5×。本配方此后被 π₀.₅ / π₀.₆ / π*₀.₆ / π₀.₇ 谱系全线采纳为默认训练 recipe。主要疑点:①归因不彻底——图 6 显示 "joint-training (no stop-grad) + VLM data" 也能把 OOD 语言遵循从 33% 拉到 86%、几乎追平 KI,stop-grad 与 VLM co-training 高度可替代,论文没做 stop-grad / VLM data 的 2×2 网格归因,"stop-grad 是核心"的因果归属其实没坐实;②统计样本小且评分主观——每任务仅 10 episodes + 多分项加权 + 双侧 t-test,items-in-drawer 标志性 p=0.049 踩在边缘,T-shirt 的 "squareness/wrinkles" 维度主观,多任务比较未做多重检验校正;③数字与参数公开度差——摘要图 2 标 "3B backbone" 但训练细节给的 PaliGemma 配置实际是 2B 量级;π₀.₅ 风格 "先 FAST→再 fine-tune" 这个最该比的两阶段 baseline 只有文字提及没有数字;HybridVLA 对照是在作者修改后的版本上跑的,缺乏原始配方对照。
-
π₀.₆ Model Card (Physical Intelligence model card, 2025-11) Physical Intelligence π 谱系的新一代 VLA 模型卡:保留 π₀.₅ 的「高层子任务 + 低层 flow matching action」分层架构,主要改动是 VLM backbone 升级到 SigLIP 400M + Gemma 3 4B、可选 metadata conditioning prompt、训练数据更多样,沿用 Knowledge Insulation 训练(action expert 梯度 stop-grad)。最大卖点:out-of-the-box 评测(无任务特定 fine-tune)下显著超过 π₀.₅——之前必须 task-specific post-training 才能跑的 laundry folding 与 box assembly,π₀.₆ 直接零 fine-tune 拿到非零成功(laundry ≈65%、box ≈20%),4 类静态任务 throughput 普遍 ≈2×,4 类移动任务 throughput ≈2.5–6×,4 套泛化任务 success 全线提升;推理在单 H100 上 5 denoising step + 3 相机 63ms/chunk。也是 π*₀.₆ (RECAP) 的 base model。主要疑点:4 页 model card 没有任何消融,backbone 升级 / metadata / 数据扩充三个改动的贡献无法分离;训练数据只说"largely inherits π₀.₅",新增数据量与配比不透明;π₀.₅ baseline 是否被故意"不灌新数据"以放大 gap 无法澄清;metadata conditioning 是核心新通道但正文没给一个示例(字段、取值、来源全部缺失);"box building 20%"距生产可用尚远,反衬纯 BC 上限仍在、难任务仍需 RL;模型与数据闭源不可复现。
-
π*₀.₆ (RECAP): a VLA That Learns From Experience (arXiv 2511.14759, 2025-11) Physical Intelligence 一套让 flow matching VLA 通过真实部署经验持续改进的通用 RL 配方 RECAP(RL with Experience and Corrections via Advantage-conditioned Policies)。核心用 advantage conditioning(把策略条件在一个「改进指示符」上,CFG 式可在推理时用 β 锐化)替代不稳定的 policy gradient,从而把 demonstration、autonomous rollout、human correction 三类异构数据统一纳入 iterated offline RL 循环。在折衣物、装纸箱、做 espresso 等真实任务上 throughput 翻倍、失败率减半,并实现约 13 小时连续运行级别的鲁棒性。最值得警惕的一点(§5.2):论文标榜「从经验中学习」,但最吃价值估计的长时难任务(box assembly、cafe)重度混入被强制标为 positive 的 human corrections,本质接近 HG-DAgger 监督;真正干净的「纯 RL 无干预」证据只来自较短、初始已可靠的 T-shirt 折叠与失败移除实验,且缺「同数据纯 SFT」这一最朴素对照来分离机制贡献。
-
π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities (arXiv 2604.15483, 2026-04) Physical Intelligence π 系列目前最新的可 steer 通才机器人基础模型:5B 参数 VLA(Gemma3 4B backbone + 860M flow matching action expert + MEM history encoder,构建于 π₀.₆-MEM)。中心思想是 diverse context conditioning——训练时给每个 episode 喂详细语言、episode 元数据(速度/质量/失误)与生成的 subgoal 图像(全部随机 dropout),从而能吸收大规模异构、混质量数据(含失败、autonomous RL-specialist rollout、human video),并在推理时通过 prompt 与实时 language coaching 被精确 steer。由此「涌现」出若干能力:out-of-the-box 匹配 task-specific RL specialist、广泛的指令泛化、zero-shot cross-embodiment(UR5e 叠衬衫上 task progress 85.6% vs 人类专家 90.9%)、以及靠 coaching 无需新动作数据就实现的组合/长程泛化。主要疑点:「emergent」叙事部分是 marketing——作者自承无法干净区分 seen/unseen 任务、闭源不可复现、human-vs-policy 比较采用对人类不利的 zero-shot/无热身协议;steerability 评测主观;distillation 究竟损失多少能力、operator hours 不可获取。
-
RLT (RL Token): Bootstrapping Online RL with Vision-Language-Action Models (arXiv 2604.23073, 2026-04) Physical Intelligence (Charles Xu, Jost Tobias Springenberg, Michael Equi, Ali Amin, Adnan Esmail, Sergey Levine, Liyiming Ke) 与 RECAP 走 "offline iterated RL + advantage conditioning" 不同,本作把 online、off-policy actor-critic 直接挂回 π₀.₆ VLA:冻结 π₀.₆,在其顶上插一个轻量 encoder-decoder 学一个压缩的 "RL token"(≈对 VLA 内部表征做信息瓶颈),再用 chunk 级 TD3 风格 actor-critic 同时条件在 RL token 与 VLA 的参考动作上,用 BC L2 正则把策略锚在 VLA 行为附近防止偏移到坏分布。在螺丝拧入、扎带穿孔、网线/充电器插拔这类高精度 contact-rich 任务上,仅用几分钟到几小时真机经验就把成功率与速度显著提升,关键阶段提速最高 3×(部分场景 5–8×),部分任务甚至超过专家遥操作速度。主要疑点:①任务集偏窄——四个任务都是"对位+插入"family,缺折叠/倒液/长程序列,"通用配方"实际只在一个 task family 上验证;②HIL-SERL baseline 不公平——原本是 10 Hz + 有 action bbox,论文 setup 故意改成 50 Hz + 无 bbox 让对手学不出来,再宣称碾压;③"sample-efficient" 口径只算梯度不算推理与人力——训练梯度便宜但每 50 Hz 决策都要前向整个 4B+860M VLA,且 critical phase handover、reward 标注、专家介入全人工,"几小时训练" 实际是"几小时专家在线时间"。
-
MEM: Multi-Scale Embodied Memory for Vision Language Action Models (arXiv 2603.03596, 2026-03) Physical Intelligence (Marcel Torne, Karl Pertsch, Homer Walke, … Sergey Levine, Chelsea Finn, Danny Driess) 给 π₀.₆ VLA 加 memory,做出 π₀.₆-MEM(亦即后续 π₀.₇ 的架构基座)。中心 insight:不同时间尺度需要不同的 memory 模态 —— 几秒内的 occlusion / grasp 调整需要稠密像素,几十分钟的"菜谱走到哪一步"只要少量语义 bits。于是把记忆正交分解为两条:(1) video encoder(ViT 每 4 层加 causal space-time separable attention、零新增参数、\(e(0)=0\) 保证 \(K=1\) 严格回退到单帧 ViT、上层丢过去 timestep token),把多帧观测压成与单帧同样数量的 token 进 VLA backbone;(2) language memory \(m_t\),由 high-level policy 自己同时预测下一个 subtask \(l_{t+1}\) 与更新后的记忆 \(m_{t+1}\),训练 supervision 来自 off-the-shelf LLM 对 subtask 序列做的 compressed summary(关键:训练时就教它丢弃失败重试,避开 train-inference distribution shift)。Pre-train 5 s window,post-train 灵活扩到 18 frame / 54 s;推理走 RTC 异步 chunking。结果:清洁厨房、煎芝士这类 ~15 min 任务能做,in-context adaptation(OOD 桌高 chopstick、未知开门方向 fridge)显著强于 memoryless π₀.₆,且在不需要 memory 的灵巧任务上 不掉点(多样化 pre-train data 抑制 causal confusion)。主要疑点:所有评测都是 PI in-house(无 LIBERO/CALVIN/SimplerEnv 公共对照);Pool-Memory/Proprio-Memory baseline 是否享受同等 video pre-train 措辞模糊;"15 分钟"标题但没给真正的 elapsed-time vs success curve;language memory 用的 LLM 是哪个、prompt 怎么写、不同 LLM 一致性如何完全藏起来;每 4 层这个超参没 ablation;causal confusion 主张靠"不掉点"反推、无专门 stress test;in-context adaptation 其实需要"人工干预 + recovery 演示" supervised 训练,不是 emergent;closed weights/data/code。
动作 tokenizer 一对(清华 / 复旦 / 天津大学,FAST 的批判性后继)¶
- FASTer: Toward Efficient Autoregressive VLA Modeling via neural Action Tokenization (arXiv 2512.04952, 2025-12, ICLR 2026 投稿) Yicheng Liu, Shiduo Zhang, Zibin Dong, … Xipeng Qiu, Hang Zhao(清华 / 复旦 / 上海创智 / Galaxea AI 等) 系统/工程侧:用 transformer + RVQ 的神经动作 tokenizer(FASTerVQ)把 action chunk 压成定长、结构化、coarse-to-fine 的离散 code,治掉 FAST 的 BPE 变长 token 难训问题;再用 block-wise 自回归(BAR) + 轻量 action expert 的 FASTerVLA 并行解码。亮点:action-维非均匀 patchify(位置/姿态/夹爪按物理语义分组)对治分布异构;codebook-first 解码顺序对齐 RVQ 残差结构;码表 100% 利用、熵 0.91(FAST 仅 48%/0.69)。LIBERO 97.9% SOTA、Simpler-Bridge 87.9%,WBC 延迟 237ms vs π₀-FAST 1100–3000ms。最值得警惕(§5.2):跨 backbone 实验作者自承「增益主要来自 FASTerVQ,BAR 只加少量」——并列标题里 BAR 实为加速补丁;action expert 无 robotics 预训练时灾难退化(simpler-widow 23.6);公共可复现对照只有 LIBERO/Simpler,跨本体泛化存在 tokenizer 预训练分布泄漏嫌疑;与姊妹论文 ActionCodec 在「token 间该不该有依赖」上结论相反却未讨论。
- ActionCodec: What Makes for Good Action Tokenizers (arXiv 2602.15397, 2026-02, ICML 2026 投稿) Zibin Dong, Yicheng Liu, Shiduo Zhang, … Xipeng Qiu, Hang Zhao, Jianye Hao(Knowin AI / 清华 / 复旦 / 天津大学) 原理/理论侧(反过来 cite 了 FASTer):把 VLA 的 NLL loss 分解成 \(D_{KL}+H(C|V,L)\),再把条件熵(=监督模糊度)用互信息拆成 artifact entropy / capacity / perceptual alignment 三块,推出四条最佳实践——高 overlap rate(低 artifact entropy)+ 小 token budget/vocab + 高 vision-language alignment + token 独立(无 residual grammar)。反直觉结论:内部 self-attention 虽提升 residual grammar 却损害 VLA(temporal hallucination),故主张 Perceiver 独立 token。配 RVQ 后训练(冻结第一码本、零代价提保真)+ 本体 soft-prompt。无任何 robotics 预训练下 ActionCodec-BAR 在 LIBERO 拿 97.4% SOTA,256M backbone 超别家 2.2B;OR 19%→72% 与 SR 强相关。主要疑点(§5.2):四项分解只有 OR 被真正定量验证、其余像事后理论外壳;OR 是用对比损失人为合成的,因果方向存疑;与 FASTer 的 RVQ+BAR 依赖结论冲突而未正面讨论;RVQ 后训练对 SR 仅 +0.3% 却单列一节;核心 ablation 全在 LIBERO 单 suite。
其它¶
-
ABC: Scalable Behavior Cloning with Open Data, Training, and Evaluation (项目主页 abc.bot,2026,无 arXiv) Arthur Allshire, Himanshu Gaurav Singh, Ritvik Singh, Adam Rashid, … Pieter Abbeel, Phillip Isola, Jitendra Malik, Guanya Shi, Angjoo Kanazawa — UC Berkeley / MIT / Amazon FAR / XDOF / CMU 一篇全栈开源的 behavior cloning 基础设施论文(数据 + 模型 + 仿真 + 评测四件套),核心是在便宜的 $8,000 双臂 YAM 平台上把开源遥操作数据推到 3,553 小时 / 134,806 episode / 195 任务(ABC-130K)——同规模对标 AgiBot-World(3000h) 但硬件便宜十倍,同平台对标 MolmoAct-2(720h) 但大一个量级,按 7 个 primitive category(pick-and-place / fine pick / folding / insertion / tool use / sorting / tying)组织,1,552h 子集带 subtask 标注。配套放出:①
abcdldataloader(恒定 GOP=30 让帧索引可解析重建、每次解码读取量降 ~70× 9.75MB→0.14MB,3 路相机叠进单 MP4);②两类基线 + 干净架构消融——ABC-DiT(DINOv3 ViT-B + pooled cross-attention + 2B 大 DiT head,刻意把 head 做大排除容量瓶颈,逐步换 adaLN→cross-attn、CLIP→DINOv3 各有可归因增益)和 ABC-VLA(Gemma 3 4B + 8-token pooled adaLN + 小 45M DiT head,靠「单次 VLM forward 摊销 8 个 diffusion (ε,τ) draw」做方差缩减、成本几乎不变 1.346→1.366 s/step),结论是 VLA 侧 pooled adaLN(67.5) ≫ FAST+X-Attn(29.6) ≫ 纯 X-Attn(9.2)、DiT 侧 DINOv3-xattn 最优;小 batch DiT 更 flop-efficient、batch 9.2K 时 VLA 反超;③离线指标可用性的诚实拆解——training loss(r≈−0.84) 与 validation action error(r≈−0.93) 强预测真机、validation loss 几乎不相关(r=−0.04);④ABC-Sim(MuJoCo + Blender 重渲染、400h VR 遥操、10 任务),sim-to-real 相关 strict r=0.85 / progress r=0.91;⑤ABC-Eval(>100h 真机 rollout + rubric)。还展示 DAgger 把折纸箱 24%→85%、预训练越多下游 finetune 越强、operator-ID / subtask / action-prefix 三类 conditioning,以及推理优化后 ABC-VLA(17.5ms) 反而比 ABC-DiT(36.3ms) 快(VLM 只跑一次缓存、重复的只有 45M head)。主要疑点:最关键的架构消融全在拿不到的 internal-7K corpus 上做而非公开 ABC-130K,与「同一起跑线」的卖点矛盾;真机评测窄到 Bottles/Dishrack/Mugs 三任务(Mugs strict ≤2% 近地板);DiT vs VLA 被 batch size 搅在一起无定论;conditioning 实验 n=10 + 主观 rubric 统计弱;DAgger 24%→85% 混入「更严格 SOP 数据 + recovery 行为 + 更多步」多变量;validation action error「最强相关」与真机共用同一 10 步 diffusion 配置有循环嫌疑;纯位置控制无力/触觉(contact-rich 任务如 Mug flip 仅 ~40%);不在 arXiv、无 LIBERO/SimplerEnv 公共对照。精神上接近机器人版的 Octo / LeRobot,但更押「数据规模 + 评测可复现」。 -
Gigapixel: Scaling Self-Play for End-to-End Driving (arXiv 2606.19641, 2026-06, CoRL 2026 投稿) Luke Rowe, Roger Girgis, Rodrigue de Schaetzen, Daphne Cornelisse, Alaap Grandhi, Felix Heide, Eugene Vinitsky, Christopher Pal, Liam Paull — Mila / UMontréal / Polytechnique / Torc Robotics / NYU Tandon / McMaster / Princeton 把 self-play 从 vectorized BEV 推进到 pixel-based end-to-end driving 的首篇。三段式 pipeline:①Gigapixel = PufferDrive 抽象 sim + Madrona ECS 批量渲染(cuboid + lane strip + 信号灯小球的 perspective view),1×A100L 跑 50k agent-SPS,比 HUGSIM 3DGS 渲染快 ~1000×、比 RAP 快 ~4000×;②Self-play DAgger —— 因为 pixel-RL 在 E2E 模型规模上比 DAgger 多 ~3000× 步才能到 score 60,作者把 RL 限定在 2.7M 特权 vectorized teacher(按 Gigaflow 风格 + per-agent persona 系数随机化),让 pixel-based student 控所有车,每步 fork 一份并行 sim 让 teacher rollout 4 秒生成轨迹监督——每个 agent 都贡献样本,experience 直接 ×N;③Sim2Real perception adaptation:用 NAVSIM
navtrain配对真实/合成观测,仅微调 perception backbone(planning head 冻结 + perceptual L2 强制对齐 sim 特征)。结果:不用任何人类轨迹监督,HUGSIM 上 Gigapixel-DrivoR 取 RC 50.1 / HD-Score 38.5(超过 DrivoR+SimScale 0.4 分),NAVSIM-v2 navhard Stage 2 拿 63.5 接近 SimScale 顶配 64.6;BC 在 100M 步处 plateau,self-play DAgger 单调上升不饱和。两条质性证据很有说服力:领头车减速时 BC 直接追尾、self-play 提前减速绕开;recovery state(路边)BC 飘出去、self-play 缓打方向救回。Ablation 干净:去掉 perceptual L2 33.2→18.5;再去 freeze planning head 18.5→15.8——两条 design 各贡献十几个点。主要疑点(§5.2):①抽象 box-world 先天没法表达 weather/debris/异物,sim-to-real adapter 又是 L2 对齐 sim 特征——不会产生 sim 里没有的语义反应;②teacher 看全 state、student 看像素的信息不对称会监督学生学"做不到"的反应(被遮挡车),论文承认但没量化;③Extreme tier 输给 BC 的"high-velocity bias"叙事用单一均值碰撞速度推断"BC 不安全"过于薄弱;④全部测评 (HUGSIM/NAVSIM-v2) 数据底层与 nuPlan 训练场景同源(Waymo/nuScenes/nuPlan 同 city),训-测重合嫌疑没正面回应;⑤配对集做 sim-to-real 暗含"raw log 能反推 BEV state"——这件事只在 NAVSIM 上 trivially 可行,量产场景不延伸;⑥Persona vector \(\mathbf{c}_i\) 推理时如何赋值(fix conservative? sample?)没在正文说,可能解释 Extreme tier 短板;⑦"BC 用人类数据更便宜"的 compute fairness 没列——teacher 25B 步 × 8 H200 × 24h 的成本被"不用人类轨迹"的卖点遮掉了。姊妹论文:Spiced Self-Play (2606.19370)(同作者群体之一)走的是 vectorized + KL anchor 方向,两条线天然互补。 -
Roach: End-to-End Urban Driving by Imitating a Reinforcement Learning Coach (arXiv 2108.08265, ICCV 2021) Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool — ETH Zürich CVL / MPI for Informatics / KU Leuven 2026 那四篇 self-play 自动驾驶(TerraTransfer / Gigapixel / Spiced / World Engine)的 2021 单 agent CARLA 祖宗。论点:人类是好司机但不是好 IL coach(无法做 on-policy 密集标注);规则 Autopilot 不达上限。因此训一个 BEV→action 的纯 RL teacher Roach(PPO + Beta 分布 + 自创"exploration loss"——把 \(\mathcal{L}_\text{ent} = -\text{KL}(\pi\|\mathcal{U})\) 推广到 episode 末 100 步施加 task-aware 先验:撞车前用减速 prior \(\mathcal{B}(1,2.5)\)、被堵用加速 prior \(\mathcal{B}(2.5,1)\)、偏路用均匀 steering prior),10M 步 / 6 CARLA server / ~1 周训完,本身在 NoCrash-dense new-town-new-weather 拿 96% SR 反超 Autopilot 91%,设定新的 IL 上限。然后冻 teacher 当 neural KD coach,用 4 种损失监督 CILRS-架构单相机 IL 学生:(1) \(\mathcal{L}_\text{A}\) 动作 L1(默认 baseline),(2) \(\mathcal{L}_\text{K}\) action 分布 KL(≡ TerraTransfer 的 action loss),(3) \(\mathcal{L}_\text{F}\) 256-d latent L2(≡ TerraTransfer SVD 关系型结构损失的祖先;论据:\(\mathbf{j}_\text{RL}\) 紧凑足够再过 2 FC 出动作 + BEV 输入下天然 weather-agnostic),(4) \(\mathcal{L}_\text{V}\) value MSE side task。\(\mathcal{L}_\text{K}+\mathcal{L}_\text{F}(c)\) + 5 轮 DAGGER 拿到 NoCrash-dense new-town+new-weather 78% SR —— 比之前所有方法翻倍(LBC 39%,DA-RB+ 35%)。损失消融非常诚实地拆 3 段:换 teacher (Autopilot→Roach, 同 L1) +23 DS、L1→KL +13 DS、加 feature L2 +9 DS。与 2026 四篇的 lineage:TerraTransfer 几乎是 Roach 的精确升级版——RL teacher 从 single-agent 升级到 multi-agent self-play、vision backbone 从 ResNet-34 升级到冻结 DINOv3、feature loss 从全坐标 L2 升级到 SVD 子空间 cosine similarity 矩阵(Tung 2019 + Gavish-Donoho 2014 理论封装);Gigapixel 是 Roach 的"自家像素 sim + self-play DAgger"变体;Spiced 是"加 KL anchor"变体;World Engine 是远房表亲。主要疑点(§5.2):①完全在 CARLA 0.9.11 内训和测,sim-to-sim transfer 而非真车(这条在 2021 是默认,但回看显得弱);②Roach BEV 里 route 是 rendered 进去的——导航 ground-truth 灌进 expert 输入,student 没这 channel 所以需要把 command one-hot 拼进 measurement vector 才能让 feature matching 有意义(根因是 teacher 输入信息泄漏,不该把 route 烤进 BEV);③single-agent CARLA + 内置 traffic,partner 行为分布完全靠 CARLA 默认 NPC(这条到 Gigapixel/TerraTransfer 才升级到 multi-agent self-play);④NoCrash benchmark 在作者口中已 saturate,CARLA LeaderBoard 才是真考验,但 Roach 在 LB 上 student-teacher gap 仍较大;⑤exploration loss 默认 episode 末 100 步施加先验,长 horizon 失败(更早的轨迹选择错误)这个机制漏掉;⑥\(\mathcal{L}_\text{V}\) 单独无效、与 \(\mathcal{L}_\text{F}\) 组合才有协同——"互相正则"是事后合理化,未做 controlled 实验区分协同 vs 单纯 multi-task;⑦CARLA 0.9.11 的 after-rain puddle reflection 渲染 bug 让某些 baseline 蒙难,跨版本对比 (0.8.4 vs 0.9.6 vs 0.9.11) 公平性存疑;⑧DAGGER 5 轮 wall clock 与 Roach RL 训练同量级,"camera student 便宜"在 abstract 里被淡化;⑨ResNet-34 ImageNet backbone 容量是否过剩、能否用更轻 backbone 论文没探,TerraTransfer 5 年后用冻结 DINOv3 + 2 linear adapter 是对这条的回答。读这篇的价值在于:今天 2026 那波 self-play E2E 论文的核心 KD 接口(action KL + latent L2 + value)早在 2021 年就被 Roach 完整钉死,5 年的"新意"主要在 RL teacher 上 multi-agent self-play + feature loss 上 SVD 子空间这两件事——是否构成质变,是这条线后续值得讨论的核心问题。
-
TerraTransfer: Learning End-to-End Driving Policies Without Expert Demonstrations (arXiv 2606.17386, 2026-06, CoRL 2026 投稿) Zikang Xiong, Weixin Li, Zhouchonghao Wu, Akshay Rangesh, Saarth Bonde, Grantland Hall, Chen Tang, Yihan Hu, Wei Zhan — Applied Intuition / UCLA / UC Berkeley 把"学开车 (Phase 1)"和"学看东西 (Phase 2)"彻底解耦的第三条 self-play E2E 路线(与 Gigapixel / Spiced Self-Play / World Engine 同期)。Phase 1:在自家 vectorized sim TerraZero 里跑 GigaFlow 风格 PPO 多 agent self-play(per-agent reward weight \(w^{(n)}_k\) 随机化 + 作为 ego 输入产生多 persona),单一参数控所有 agent,仅借 nuPlan HD map geometry(不用 log / agent init / goal / 轨迹),16×A100 / 96h / 2.4B 公里模拟驾驶,~3M agent SPS。Phase 2:冻 teacher 的 ego encoder + shared MLP + actor head,只换 road / partner 两个 DeepSets encoder 成共享 DINOv3 + 两个 linear adapter,仅靠 (image, scene-state) 配对帧 + 两个 loss 蒸馏:(1) action KL 拉齐 policy 分布;(2) batch-relational SVD low-rank 结构 loss——观察到 teacher 64 维 \(f_p / f_r\) 在前 13 / 9 维就吃掉 80% 能量,每个 batch 算 SVD 取 top-\(k\) 右奇异向量投影、对 cosine-similarity 矩阵做 Frobenius 匹配,只学"哪些场景之间像"的关系几何而不强迫学绝对坐标系。Phase 2 仅 8×A100 / 10h / 1.83M paired frame(51h @ 10Hz,来自 nuPlan)。结果:自定义 closed-loop HD-Score 在 HUGSIM 88 nuScenes 场景上 All 0.490,比最强 IL baseline LTF 高 0.130、比 ECO 高 0.038,与 teacher 上限 0.520 仅差 0.03;\(\rho=0.6\)(约 ECO 数据量的 40%)就已超过 ECO。最干净的洞察(Appendix F):alignment target 永远是 teacher 在 state 上重新算的 action 分布,所以 paired-data 收集 policy 的好坏不影响对齐——用纯随机动作收的数据效果几乎一致。理论上很优雅地拒绝"perception→planning 级联":teacher 的 DeepSets pool 是 lossy many-to-one,学 pooled feature 比反演 detection set 简单。主要疑点(§5.2):①closed-loop HD-Score 是作者自己重定义的(TTC/COM/\(R_c\) 都改成 realized rollout),所以表 1 里 UniAD/VAD/LTF/ECO 是被作者重算的而非原 leaderboard 数字——跨论文对比可信度打折;②student 是离散 softmax 动作 + per-step replan,baseline 是连续 7-pose trajectory output,"重定义 metric 以适配自家方法"嫌疑;③TerraZero 控制对象只有车,行人/骑行只是 procedural 静态障碍,signalized intersection 也不完整支持(Limitations 自承),HUGSIM 88 nuScenes 场景里 VRU/路口交互完全没保障;④Extreme tier 失利 (0.150 vs ECO 0.255) 只口头说"保守换 safety、牺牲 RC",没拆 NC/DAC/RC 数字;⑤DINOv3 完全冻、只 2 个 linear adapter 容量极小,可能解释 teacher-student 那 0.03 gap,但没做 partial fine-tune 对比;⑥paired data 来自 nuPlan,TerraZero map geometry 也来自 nuPlan——"跨数据集泛化"严格说只是"map distribution 一致 + sensor/region 不一致";⑦"reconstructed scene state"具体怎么从 nuPlan log 得到?论文没说——如果走 3D label 反推 set 表示,人工 annotation expense 没真省,只是把轨迹标和 3D 标注拆开;⑧TerraZero 是 in-house sim 不开源、teacher checkpoint 也不开源,可复现性低;⑨完全无真车 / 跨 sim transfer 验证,跟 World Engine 200 km on-road 是两个量级。与其他三条 self-play 路线的关系:Gigapixel 把 sim 推到像素层、teacher 在像素 sim 内蒸馏 student;Spiced 用 30 min 人类 anchor 做 KL 正则;World Engine 走"3DGS 重建 + BWM + KL 后训";TerraTransfer 走"sim 留 vector + 一次性 modality bridge"——四条线在"如何让 vector self-play 输出能上像素车"上做出了完全不同的工程选择。
-
Spiced Self-Play: Human-like autonomy emerges from self-play and a pinch of human data (arXiv 2606.19370, 2026-06, CoRL 2026 投稿) Daphne Cornelisse, Julian Hunt, Zixu Zhang, Waël Doulazmi, Kevin Joseph, Jaime Fernández Fisac, Eugene Vinitsky — NYU Tandon / NYU Courant / Princeton / Mines Paris CAOR / Valeo 问"self-play RL 需要多少人类数据才能学到与人协调的驾驶 convention",并第一次系统量化。骨干配方:650k MLP policy + PPO + sparse reward (+1/−1/0) + KL 正则到一个 BC anchor(anchor 训在 WOMD SDC 轨迹的 nested 子集 10min/30min/3h/30h 上);20B transitions(~63 年模拟驾驶)在 PufferDrive 2.0 (390k SPS on RTX 5090) 上跑,15 小时 / 单张消费级 GPU。核心结论:30 分钟人类驾驶数据就把 unregularized self-play 的 at-fault collision rate 从 2.1% 压到 0.7%(3× 改进),比 SMART-CLSFT 用 52 天人类数据训得的 1.6% 还低 2.5×;anchor 数据从 30min 加到 30h 收益严重递减(score 0.968 → 0.976)。行为侧深挖很扎实:①\(\Delta v\) 碰撞 severity 从 2.09 m/s 降到 1.71 m/s(−18%),15 mph 以上严重碰撞占比 14.3%→7.5%,正则化不仅碰得少也撞得轻;②unregularized 的 longitudinal L2 (13.33 m) 是 lateral L2 (2.39 m) 的 5.6×——"走对路线但开太快",正则化同时改善路线与节奏,平均 episode 长度 38 步→64 步(从 RL 的"discounted optimizing"被拉回人类的"satisficing");③WOSAC 分布真实性 0.680→0.725 但仍输给 SMART (0.755),说明"轨迹像人"≠"行为安全有能力";④scenario metadata (road graph + 初始位姿) 多样性比 anchor 数据更不可替代——50k 场景 + 30 min anchor 远胜 10 场景 + 30 h anchor。所有训练 agent(包括 VRU)都由 policy 控制,杜绝 SPACER 那种"训练时混 log replay 污染对照"的歧义。主要疑点(§5.2):①跟 SMART 比同时改了 model size + 数据量两个轴(650k MLP vs tokenized AR),不是 anchor 数据量的纯对照;②sparse reward 看似"无 reward engineering"但 anchor 是 SDC-only 轨迹这件事本身就是隐式人类先验——只是 Gigaflow 显式手调 reward 的另一种说法;③30min ≈ 30h 的饱和有可能是 anchor 容量瓶颈而非数据真够用(WOSAC 不动暗示这点);④hard set (top 200 interactive scenes) at-fault 从 0.7% 涨到 2.1-2.8%,长尾稳健性其实不行;⑤single-agent RL against fixed replay at-fault 仅 0.2-0.3% 比 self-play 还低——self-play 的真正价值需"未来多 AV 共存"假设支撑而本文没测;⑥跨 dataset / 跨地理 / 真车 generalization 完全没测;⑦\(\lambda\) 固定 0.075,没做 schedule 实验。姊妹论文:Gigapixel (2606.19641) 把同一 self-play 哲学扩到 pixel-based E2E。
-
World Engine: Towards the Era of Post-Training for Autonomous Driving (arXiv 2606.19836, 2026-06) Tianyu Li, Li Chen, Caojun Wang, Haochen Liu, Kashyap Chitta, Zhenjie Yang, …, Andreas Geiger, Peng Su, Hongyang Li — HKU / 华为 / Archon Robotics / 上海创新研究院 / KE:SAI / NVIDIA Research / NTU / valeo.ai / 清华 / Tübingen 主张自动驾驶已经到了 LLM 式的"post-training 时代"——常态驾驶被 fleet 预训练吃干净,操作安全边界由 long-tail 决定但 fleet 没法主动采集 safety-critical interactions。配方:用预训练 E2E agent 自己当 long-tail probe(log 上跑非反应式 rollout,撞或脱离行驶区的 scene 标为 critical)→ 3DGS 重建 + scene graph 静动分离得到 photorealistic interactive world(自由视角实时渲染是闭环的硬要求)→ Diffusion-based behaviour world model用 decoupled triaxial noise(agent × time × denoising step 各自独立 noise level)同时拿到 goal orientation + frame-level reactivity,配 Scenario Copy / Intent Attack 两种 inference 模式把一条 log 扩成几百个 reactive counterfactual variant → behaviour-regularized RL post-training(KL 锚回 \(\pi_\text{ref}\) + 真假 log \(\alpha\) 混合 + hard experience mining,奖励用 hard collision/drivable gate 乘 加权 progress/TTC/comfort 防退化)。结果:nuPlan 安全关键闭环(288 rare cases)full World Engine 相对 base SR +15.23 pp(73.66→88.89)、PDMS* +9.14(60.98→70.12);ablation 显示 rare > common log、rollout > replay、加 BWM 把 PDMS* 从 67.33 推到 70.12——三段都是真正的因果验证;50k pre-train + 后训直接超过 100k pre-train,外推 scaling 曲线相当于 ~10× 更多预训。华为 ADS 产线 10,000+ 场景闭环 sim:cut-in 撞车 -45.5%、路口撞 -24.1%、行人/骑行撞 -15.8%,common dynamic/static collision 还反向涨(说明 KL+混合分布的双重正则没破坏日常驾驶);Shanghai 200 km 三次实路全部零接管 vs base 触发一次 cut-in 接管。主要疑点(§5.2):①long-tail discovery 只能找已在 log 里出现过的失败模式,全新路型/天气/极端事件根本进不来发现池;②3DGS 在 ego 显著偏离原轨迹时 novel view 失真,RL 探索一旦走远渲染就开始给错误梯度,文中没量化失真半径也没说 reward 对渲染质量门控;③闭环单步 ~78% 时间在 policy 推理而非世界模型——所谓"RL 后训"实际只跑 8 epoch / 11 h,sample efficiency 是否撞墙未拆;④5,340 个 long-tail 扩成 31,508 frame,post-training 端 token 总量并不大,"等价 ~10× 预训"是外推论断不是观测;⑤PDMS* 是作者自定义 metric(用 GT 替 PDM-Closed 上界 + reactive 重打分),目前无外部使用、SR 88.89% 也是自家 simulator 里的;⑥行人 / 骑行 BWM 保真度作者承认不足,但产线 collision-with-pedestrian/cyclist 降 15.8% 又来自这套数据——存在"低保真模型练出高保真 metric 提升"的逻辑张力没被拆开;⑦多轮 iterative post-training 在 58.3M base 上会失稳(作者明言),单轮闭环严格说不算"closed loop";⑧产线对照对 RECAP/RLT 这类同期 RL post-training 方案完全没正面交锋。本论文的最大贡献不在某项 SOTA,而在把 LLM 的 post-training 范式系统化地搬到 driving,并用产线 + 实车给出第一份非 nuPlan-only 的可信证据链。
-
μ₀ (mu-zero): A Scalable 3D Interaction-Trace World Model (arXiv 2606.13769, 2026-06) Seungjae Lee, Yoonkyo Jung, … Jia-Bin Huang, Furong Huang — University of Maryland / Seoul National University 主张世界模型既不该预测稠密像素(烧容量在外观/背景)也不该直接预测 embodiment-specific 动作(受 action label 稀缺所限),而应预测语义交互点(物体/工具/手/接触区)的 3D 轨迹(trace)——一个紧凑、metric、跨本体通用的运动接口。两大件:(1) TraceExtract 数据引擎,把异构人/机器人视频自动转成「event-captioned 3D trace」监督——DINOv2 聚类选语义关键点(替代 fixed-grid,含小物体配额 + 运动过滤)、hybrid VGGT 全局稀疏 pass + 局部 dense chunk「直接对齐全局 anchor」做误差不累积的长视频 3D 重建 + TAPIP3D 渐进跟踪、reproject 回参考相机去相机运动、按 trace 加速度峰谷切 event 做分层 VLM captioning,规模扩到前作 TraceGen 的约 8×;(2) μ₀ 世界模型,SmolVLM2-2.2B 截断 backbone + permutation-equivariant Trace Expert,每个关键点是可交换 query token(B-spline 10 control points + 局部 DINO 特征 grounding),semantic flow matching 去噪(含 done head 处理遮挡截断、用 DINO cluster 替代 GT mask 的 rigidity loss)。预训练完全无 action label,冻结后单步 partial-denoise 抽中间特征经 gated cross-attention 喂给 π₀.₅-架构的 Action Expert 产动作。2D/3D trace 预测全面超 Track2Act/Hamster/TraceGen 及大 VLM(0.29s 延迟快 2.9×);RoboCasa365 仿真平均 30.25% 超 π₀ 5 点但落后 π₀.₅ 的 42%,真机 UR3 三任务平均 91.7% 反超 π₀/π₀.₅;action-head 越小 trace 增益越大(200M head +14.95)。主要疑点:预训练数据集从头到尾没被命名(多少小时/哪些数据全缺,对「scalable data engine」是可复现性黑洞);仿真 vs 真机结论矛盾且真机只 3 任务无泛化测试;「video-only」旗号下重度依赖 DINOv2+VGGT+TAPIP3D+VLM 一整条重型感知栈;主表「Full μ₀」其实关掉了更强的 depth+history 配置;标题主打 cross-embodiment 却没有任何跨结构本体迁移实验(全是单臂 tabletop)。同组前作 TraceGen 的全面升级版。
-
VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models (arXiv 2606.16140, 2026-06) Sen Xu, Shixi Liu, Wei Wang, … Junlin Zhang — Sina Weibo Inc.(新浪微博) 问"严格 3B 稠密模型在 verifiable reasoning(数学/代码)上的能力上界到底有多高"。以 Qwen2.5-Coder-3B 为底座,沿用前作 VibeThinker-1.5B 的 Spectrum-to-Signal Principle(SFT 构建宽解空间 Spectrum、RL 放大正确信号 Signal),搭一整套 post-training 流水线:(1) 课程式两阶段 SFT——Stage1 多域广覆盖冷启动 + Stage2 难推理子集(丢弃 <5K token trace 和错误率<0.75 的易题),配 Multi-path Distillation 保留多条完整推理链、Diversity-Exploring Distillation 按 Pass@K 选 specialist 再参数级 merge;(2) 多域顺序 Reasoning RL(Math→Code→STEM),核心算法 MGPO 按"离最大熵点 0.5 的距离"给 prompt 加权、只学能力边界样本,全程严格 on-policy 以避开 train-infer mismatch 崩溃;一个反直觉发现是渐进 context 扩展在 3B 上反而有害(与 1.5B/DeepScaleR 相反),改用单一 64K 长 context;Math 内加 Long2Short 零和 reward 重分配降冗余 token 不掉分;(3) Offline Self-Distillation(learning-potential filtering 取 student 还没学会的中高分 trace);(4) Instruct RL(rule-based validator + rubric reward model 保可控性)。结果:3B 在 AIME26 94.3(+CLR 97.1)、HMMT25 89.3、BruMO25 93.8(+CLR 99.2)、LiveCodeBench v6 80.2、IMO-AnswerBench 76.4,数学/代码进入 DeepSeek V3.2/GLM-5/Kimi K2.5/Gemini 3 Pro 旗舰簇;近期 LeetCode 竞赛 OOD 96.1%(123/128) 超 GPT-5.2/Kimi K2.5/Claude 4.6。但 GPQA-Diamond 仅 70.2(+CLR 72.9)大幅落后——作者据此提出 Parametric Compression-Coverage Hypothesis:可验证推理是"参数稠密型"能力可高度压缩进紧凑 reasoning core,开放域知识是"参数扩张型"能力需大参数覆盖。主要疑点:全文无 with/without ablation 表(关键设计全是散文式结论);底座是 coder 模型、无法分离编程强项来自底座还是 post-training;CLR(K=32 候选+自验证)等于 32× 推理算力却去比旗舰的单次 Pass@1,"3B 媲美 1T"的口径不公平;对手分数全是采集的、采样设定不一致;decontamination 仅靠 n-gram;缺延迟/吞吐/token 成本数据。前作 VibeThinker-1.5B 的能力上界探索续作。 Stanislaw Szymanowicz, Minghao Chen, Jianyuan Wang, Christian Rupprecht, Andrea Vedaldi — Oxford VGG & Meta AI 论点:reconstruction-free 的 NVS(像 LVSM 那样不做显式 3D、直接用网络渲染新视角)仍然需要强 3D 先验——只是这份先验可以来自「用显式 3D 监督预训练的特征」而非显式重建。做法是把 VGGT 重建骨干当 encoder(抽倒数一/二层 token、丢掉相机 token、拼接投影),配一个轻量 ViT-B decoder(目标相机编成 Plücker ray map、bidirectional cross-attention \(\mathcal{O}(V)\)),用 L2 + perceptual 端到端微调。核心结构创新是 Highway(
\direct)encoder-decoder:每张源图保留独立 token、信息流不被衰减,从而推翻 LVSM「enc-dec 不如 decoder-only」的结论(真正的锅是 Bottleneck 瓶颈,不是 enc-dec 结构)。结果:Re10k 2-view 31.4 PSNR(对最强 LVSM +1.7dB)、对前馈 3DGS(DepthSplat/AnySplat/Flare)在有/无源相机下全面领先(CO3D 9-view +6.2dB),单 H100 上 512×512、≤9 张源图 30 FPS+ 实时渲染且不用 custom CUDA kernel,可泛化到 in-the-wild / 360° / 非方形 / 无位姿,并能把同一 decoder 微调成 diffusion 做生成式补全。最干净的消融:3D 预训练 +2.9dB 而 2D(DinoV2)只 +0.14dB,把功劳精确落在「显式 3D 监督」而非「特征强度」。主要疑点:碾压 3DGS 的 +5~6dB 混入了 13 数据集大混合的功劳(唯一控变量严格的 LVSM 对比只有 +1.7dB);"实时"只指 decoder,encoder 是 1.2B 的 VGGT 巨物;主模型 cross-attn decoder 反而比 full-attn 参数更多(170M vs 85M);diffusion 部分纯定性无任何指标;纯隐式拿不到下游几何(mesh/点云);作者诚实自曝并修复了 v1 的源焦距泄漏(v2 用名义 FOV)。 -
QGF: Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning (arXiv 2606.11087, 2026-06) Zhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine — UC Berkeley / Physical Intelligence 问"能不能完全不碰策略训练(保持纯 BC flow matching),把 reward 最大化全部推迟到推理时做":QGF (Q-Guided Flow) 在每个去噪步用一个大步 Euler 积分 \(\hat a_1 = a_t + (1-t)v_\theta\) 把噪声动作便宜地投影成近似干净动作,在 \(\hat a_1\) 上取 critic 梯度(Jacobian 直接替换成单位阵)加权进 velocity 完成引导——critic 永远只在自己的训练分布附近被查询。核心拆解:QFQL 的 OOD 梯度(在噪声动作上取 \(\nabla_{a_t}Q\))有偏、1D 解析例子里无论 weight 多大都收敛到次优峰且会利用 critic 对 OOD 动作的过估计"作弊";BPTT 梯度无偏但贵且对输入噪声极敏感;QGF 梯度方向最稳定、是接近 best-of-N oracle 的最佳梯度型 Q-优化器。OGBench manipulation(20 任务 ×10 seeds、chunk h=5、100M/1B 数据集、所有方法共享同一 IQL critic)上大幅超过所有 test-time 方法(QFQL/BPTT/RobustQ/GradStep/CFGRL),与最强 train-time 方法 EDP 相当且略好;QGF+BFN(N=4) 以 1/4 采样预算匹配 BFN(N=16);模型从 800k 扩到 3.2M 参数时 QAM 不涨而 QGF 提升近 4×;换更强的 QAM critic 后还能再涨。主要疑点:guidance weight 是在评测 domain 本身上从 9 个值里调的且敏感性很高,"不用调参"卖点打折;全部实验是 state-based 4×1024 MLP(最大 12.7M 参数)、无视觉无真机,与"scaling VLA"的动机叙事有数量级鸿沟;J≈I 之后所加方向不再是任何明确目标的梯度、理论故事断裂;纯性能上限仍是 BFN(N=16),QGF 的胜利是 compute-efficiency;online setting(critic 随 policy 演化)完全未测。
-
UCPE: Unified Camera Positional Encoding for Controlled Video Generation (arXiv 2512.07237, 2025-12) Cheng Zhang, Boying Li, Meng Wei, Yan-Pei Cao, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai — Monash University / VAST 把相机可控视频生成里的 camera encoding 从 camera 级下沉到 ray 级:任意相机统一成 ray-mapping 函数 \(\Phi_\psi\),每个 token 以自己的视线方向构造局部 ray 坐标系,GTA 式作用在 attention 的 Q/K/V 上(Relative Ray Encoding),从而把 6-DoF pose、内参、镜头畸变(pinhole→广角→fisheye,UCM 参数化)统一进一个 world-frame 无关的编码;再用 gravity-aligned 的 Lat-Up map(latitude 角 + up 向量场)补上"相对首帧"范式下不可控的首帧绝对 pitch/roll。经零初始化并行 attention adapter 注入冻结的 Wan2.1-T2V-1.3B,仅 35.5M(0.5%)可训练参数、8×A800 一天训完。数据侧用 24.1k 个 YouTube 360° 全景视频合成 ~48k 个多镜头 clips(SLAM 切分定位 + 真实旋转迁移 + UCM 随机投影)。自建 272-clip benchmark 上 RotErr 4.12° vs ReCamMaster 9.23° / Wan CameraCtrl 17.92°(代差级),lens/orientation 误差全面最低;zero-shot RealEstate10K 上 pose 控制超过在该数据集上训练过的 AC3D;消融显示同参数同 Lat-Up 下 ray 级编码优于 PRoPE/GTA;推理时换 ray-mapping 函数即可泛化到未见的 Brown-Conrady 模型。主要疑点:lens/orientation 指标的 GT 与预测都来自 GeoCalib 估计、pose 评测先用 GT 畸变矫正再跑 ViPE(评测器与 lens 控制耦合,对 UCPE 系统性有利);272 clips 上的 FVD 统计意义薄弱且绝对值 ~500 很高;Wan CameraCtrl 全参微调只给 10k steps 大概率欠拟合;ray frame 在 ray 与相机 down 方向平行处有未讨论的奇异性;"lens control"只是几何 warp、无 photometric 镜头特性;"通用相机表示"主张没有任何 NVS/3D 实验支撑。
-
LeRobot: An Open-Source Library for End-to-End Robot Learning (arXiv 2602.22818, 2026-02) Remi Cadene, Simon Aliberts, … Quentin Gallouédec, Thomas Wolf — Hugging Face 一篇 系统 / 软件库论文(非方法论文):把机器人学习整条栈收进一个 PyTorch-native 开源库,纵向打通 共享 middleware(多机器人统一接口,leader 读 / follower 写)→ LeRobotDataset(parquet+mp4+metadata 的统一多模态格式,配
IterableDataset+torchcodec的百万-episode 流式)→ 物理+逻辑双解耦的异步推理栈(PolicyServer/RobotClient,action chunk 重叠部分用可插拔聚合函数 f 合并)→ 一批可复用 SOTA policy(ACT/DP/VQ-BET/π₀/SmolVLA + HIL-SERL/TD-MPC)。卖点是 accessibility(SO-10X ≈€225、可 3D 打印)+ scalability + openness:2025-09 已有 16K+ 数据集 / 2.2K+ 贡献者、50%+ 数据集采自 SO-10X,累计 trajectory 冲过 Open-X(1.5M)/RT1(130K)。给出四平台(CPU/MPS/4090/A100)的延迟与显存表(ACT 在 4090 上 ~5ms,π₀ 3.5B 在 CPU/MPS 上 100% 超时)。主要疑点:①是软件公告而非研究论文却投 ICLR,无新算法/无可证伪假设;②唯一受控实验(Sync vs Async)只用 1 模型 1 机器人 3 个玩具任务 ×10 episode,异步平均成功率反而掉(78.3→73.3,Sorting 70→50),且附录自承 server/client 同机 → 主打的「跨机物理解耦」零实验;③延迟表全 fp32 零优化(自承未做 quantization/编译),「π₀ 跑不动边缘」是稻草人;④采用统计把「库」和「数据格式」混谈,最热数据集多是 Open-X/DROID 等既有数据集移植进格式、非新采,且unknown平台标签主导 Other 类(2,370 数据集)打脸「self-contained 标准化」;⑤「reproducible SOTA」只有口号、零 parity 表,LIBERO/Meta-World 只宣布集成不给任何数字。 -
WALL-WM: Carving World Action Modeling at the Event Joints (X Square Robot, 2026-05 技术报告,无 arXiv) X Square Robot Team 把 WAM 的原子学习单元从「固定长度 action chunk」换成「action-grounded semantic event」(reach/grasp/lift/move/place 这类可执行行为段),解决 language(语义事件)/vision(连续动力学)/action(控制级)三者被外部时钟强行对齐的 granularity mismatch。架构是 layer-coupled video-action denoiser:video tower 继承 Wan2.2-5B T2V(within-view 不动,graft 零初始化 cross-view 分支 + 免标定 Camera RoPE + 训练期 sight-cone/tube 双几何 mask)、action DiT 随机初始化等深、单向 cross-attend video KV。核心训练 trick 是 asymmetric 1-to-\(N_d\) 去噪步映射:冻结 video 只在单一 anchor \(s^\star{=}45\) 供 KV,action 跑完整 50 步 schedule,每步只一次 video forward。语言侧 Qwen3.5-9B + Staircase latent CoT(relay depth 分割、并行连续 latent、frozen latent-to-text 重建监督)。同一 backbone 双模式:event mode(变长执行)/ unified mode(固定 chunk)。Muon/DMuon + DMD 蒸馏 + FP8 → 10Hz。真机 Task Progress:event mode 在 Diverse 75.86 / Reasoning 71.60 / Generalization 53.75 大幅超 π0.5、DreamZero、LingBot-VA 与自家 U-Scratch,但 Dexterous 仅 32.00 ≈ U-Scratch 31.25(精细接触瓶颈在低层 pose 精度,event 叙事失效)。主要疑点:主对比 confound 四个变量(作者自承只能测合并效应);event mode 偷偷用一个单独 fine-tune 的 Qwen3.5-VL-9B 做 per-event 分解、baseline 只给全局指令;video gen benchmark 自建 + baseline 是未具身训练的通用 Wan(且 Visual Quality 反降);"larger is better" 无 scaling 曲线;\(s^\star{=}45\) 无敏感性;主管线无 force/tactile;无任何 LIBERO/SimplerEnv 公共对照。姊妹工作 Wall-OSS-0.5。
-
Wall-OSS-0.5: Pretrain Once, Act Anywhere (X Square Robot, 2026 技术报告,无 arXiv) X Square Robot Team 开源 4B VLA(Qwen2.5-VL-3B backbone + Action Expert),把「VLA 预训练本身产不产可执行行为」变成可在真机上 zero-shot 直接测量的目标。核心 gradient-bridged co-training:单阶段联合三 loss —— discrete action-token CE 当 gradient bridge(VLM-native、强力塑造 backbone、梯度与 flow 正相关)、multimodal CE 当 anchor(锁 VL 理解、方向正交)、continuous flow matching 当部署接口(但超早期后只占 backbone 更新 ~5%)。配 MoT 路由(VL/Action Expert,joint attention 梯度不切断,对比 π0.5 stop-grad)、Vision-Aligned RVQ tokenizer(替 FAST,加 visual-action alignment + next-frame + DCT 辅助)、Action-Space Supervision(loss 定义在恢复动作上 = velocity 空间 \((1-\tau)^2\) 加权,强调高噪声步、契合机器人动作低频频谱)。26 维动作 / 6D rotation / 1s horizon,CUDA Graph + fused kernel → 224 ~21Hz、448 ~15Hz(4×)。零样本 17 任务 400k overall 51.1(Block Sorting 100、Rope Tightening 82 held-out 可形变);微调 15 任务 60.5 超 π0.5 17.5pp(但领先全在 manipulation +26,reasoning 59.3≈58.9 打平);Embodied Grounding +21.8 但 General VQA −15.0。消融:co-train 57.0 > stop-grad→co-train 49.6 > flow-only 36.6 > stop-grad 31.9;RVQ vs FAST 48.1 vs 29.3。主要短板:作者自承"unseen"在技能层非真 held-out、零样本数字 checkpoint 敏感(unseen avg 非单调)、单帧无时间记忆(long-horizon 差)、gradient bridge 只在 3B 验证、固定 26 维不支持灵巧手、stop-grad→co-train 接近 co-train 软化了"必须全程 co-train"。姊妹工作 WALL-WM。
-
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments (arXiv 2605.30280, 2026-05) Qwen Team — Alibaba 主张 manipulation / navigation / egocentric / trajectory 这些表面异构的具身任务共享同一计算结构(视觉+语言+本体约束 → 预测未来动作/轨迹),统一进单个 VLA:Qwen3.5-4B backbone + 1.15B DiT flow-matching action expert,靠 embodiment-aware 文本 prompt 作唯一本体接口(部署只换 prompt),统一 tensor 接口 + per-channel mask(固定 \(K\) 通道、前 \(c\) 维有效、零填充,单套 DiT 吃所有控制模式,不强行统一物理语义)。训练用 compression 视角的四阶段:T2A(冻 VLM、无图像、纯语言→动作解压建 prior,2000 步 / 20%syn+80%real / Sigmoid-Normal \(p(\tau)\) / full-sequence 最优)→ CPT(解冻引入视觉)→ SFT(多任务 + 真机两轨)→ RL(仅 SimplerEnv,PPO+GAE,flow-matching 转 SDE 算解析 log-prob,chunk 级 reward)。单一 generalist Qwen-VLA-Instruct:LIBERO 97.9 / Simpler-WidowX 73.7 / RoboTwin-E/H 86.1/87.2(超 ABot-M0)/ R2R OSR 69.0 / RxR SR 59.6,真机 ALOHA OOD avg 76.9(比 π0.5 高 35.4pp)、DOMINO 动态操作零样本 26.6% SR(超 fine-tuned PUMA 9.4pp)。预训练数据 74.2% 是 manipulation 轨迹(含 >1000h 私有 + 8M 自研仿真)。主要疑点:「generalist 超 specialist」口径不对等(Instruct 在 Simpler 上做了 RL,而 specialist 没有;真正同台的 Base 多数 benchmark 落后);RL「跨环境正迁移」除训练环境 +2.9pp 外全在噪声量级;DOMINO 零样本夺冠归因偏定性无消融;T2A 主体是零物理零渲染的运动学合成数据(接触/力控偏差未讨论);current-frame-only 是架构假设而非优势(Towel Folding 真机 65.4 落后 π0.5);VL/navigation co-training 退化只一句带过无定量;ego 数据 6% 无单独消融。
-
Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models (arXiv 2605.22896, 2026-05) Ruofan Jin, Zaixi Zhang — Scinetics 把 OpenVLA-OFT 当 base policy,用三件套做 online adaptation:ARS(Llama-3-8B 把 task 拆成 sub-goal,按子目标掌握度 EMA \(w_k=1-\hat c_k\) 给 VLAC progress estimator 加权 → 自动 curriculum)、LGE(Qwen3-VL-8B zero-shot 看当前帧吐"从左侧接近"这类自然语言提示,拼到 task instruction 后引导 rollout;评估时移除)、EM(按 instruction embedding cosine top-3 + softmax \(\tau{=}0.1\) 加权平均历史 task 的完整 policy 权重做 warm start);GRPO 优化。LIBERO 97.8 avg / Long 98.1(+12.3 vs SFT / +3.7 vs EVOLVE-VLA),one-shot 70.5 (+26.9),cross-task 0→31.2%,2.4× 收敛加速;RoboTwin 2.0 Hard subset 34.7 vs \(\pi_0\) 16.3(gap 在分布扰动下拉大)。Controlled comparison(uniform / fixed-schedule / learning-progress vs ARS;RND / ICM vs LGE;random retrieval vs EM)做得规矩,LM-generated decomposition 仅比 human oracle 差 0.3% SR。主要短板:EM 存全权重对 7B 级 VLA 单 entry 14–28 GB(100 entries 即 1.4–2.8 TB)作者只一笔"future work compact representation"带过;Table 5 random retrieval 已 97.0%(vs full 98.1%)反向暗示 EM 增益主要来自 any warm start 而非 similarity;三个外部大模型(Llama-3-8B / Qwen3-VL-8B / VLAC)的 inference 成本完全未量化,"2.4× speedup"只算 rollout 数;per-task table 数字异常规整(92/90/94/88 周期模式);reward hacking 在 12% failure 中存在与 ARS 设计前提冲突;全仿真,cross-task 实为 LIBERO 内部 suite 切换非真正跨 embodiment;vs EVOLVE-VLA +2.0% 与三模块复杂度不匹配。
-
KV-Tracker: Real-Time Pose Tracking with Transformers (arXiv 2512.22581, 2025-12) Marwan Taher, Ignacio Alzugaray, Kirill Mazur, Xin Kong, Andrew J. Davison — Dyson Robotics Lab, Imperial College London 把 π³ 这种 multi-view feed-forward 几何 transformer 改造成支持流式输入的实时 tracker:mapping 阶段对 keyframe 集合跑完整双向 global self-attention 并缓存每层的 (K,V) tokens 作为只读"场景表示";tracking 阶段对新帧只算单帧 Q_t/K_t/V_t,让 Q_t 同时关注缓存 + 自身,复杂度从 \(\mathcal{O}((NM)^2)\) 降到 \(\mathcal{O}(M^2(N+1))\),~15× 提速到 27 FPS。全程无 fine-tune,模型无关(附录里换 Depth Anything V3 跑通)。Keyframe 按 azimuth/elevation 角度阈值挑、低置信度自动 revert 防 cache 污染。TUM-RGBD ATE 0.108 m vs TTT3R 0.132(学习 baseline 最优)、7-Scenes 0.080 vs 0.143(−44%);ARCTIC 物体跟踪 0.228 vs 0.305;OnePose Low Texture 5cm/5° 94.4% vs OnePose++ 72.1%。核心短板:1cm/1° 紧阈值上 vs OnePose++ 落后 ~40 pp(在线 vs 离线建图的精度代价),24 GB 显存在 110 keyframes 已爆 → 论文 conclusion 自承"only spatially confined environments";headline 27 FPS 是关闭 point-map/confidence head 的最简配置,开满后没给数字;keyframe 插入触发 cache 全量重算(\(\mathcal{O}(B^2)\) 尖峰)阻塞行为没量化;baseline 强制 100 帧状态重置 + 分辨率不对等让 FPS 对比有水分。
-
IMPACT: An Implicit Active-Set Augmented Lagrangian for Fast Contact-Implicit Trajectory Optimization (arXiv 2605.09127, 2026-05) Jiayun Li, Dejian Gong, Georgia Chalvatzaki — TU Darmstadt / Hessian.AI / Robotics Institute Germany 针对 contact-implicit 轨迹优化中 MPCC 因 CQ 失效带来的乘子 blow-up / 数值脆弱问题,提出 safeguarded AuLa + BCD 框架:vertical 重写把 G/H 非线性扔到光滑等式、complementarity 落到 axis-aligned slack 变量上;外层 AuLa 只吸收等式/不等式约束、complementarity 始终作为硬约束保留(避开 vanilla AuLa-for-MPCC 乘子无界病);内层 BCD 在 X 上做 damped Gauss-Newton,在 (Y,Z) 上做 closed-form 选 cone-branch(dual-shifted projection,扮演"implicit active set"),不需要 mode enumeration 也不需要 homotopy schedule。CRISP 长时序 CITO benchmark 上比 baseline 提速 2.9×–70× (geomean 13.8×),Allegro 22-DoF in-hand reorientation CI-MPC 在 9.53 Hz(vs cfree 50 Hz)下达成对等成功率(91.8%)但 control variance/smoothness/effort 全面更优,真机 Push-T 10/10 成功。最大短板:tracking quality 在 Push T 输 SR 7× (8.48 vs 1.24),没拆 ablation 来归因速度增益(AuLa vs penalty? closed-form vs Newton? C++ baseline 优化?),CI-MPC 5× 频率劣势被 "control quality 更好" 叙事淡化,未对比 C3+/ADMM。
-
GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning (arXiv 2505.18763, 2025-05) Shutong Ding, Ke Hu, Shan Zhong, Haoyang Luo, Weinan Zhang, Jingya Wang, Jun Wang, Ye Shi — ShanghaiTech / UESTC / SJTU / UCL 填补"diffusion policy 接 on-policy PPO"的范式缺口:把 EDICT 的耦合双噪声反演从图像生成搬到 RL,关键改动是 \(x_0, y_0\) 独立采样而非 EDICT 原版的耦合采样,使得 change-of-variables 公式成立 → 闭式 log-likelihood、无偏 entropy、解析 KL,再把这些直接灌回 PPO 的 clipped surrogate / entropy bonus / KL 自适应学习率。可逆性需要 doubled action channel,作者直接把 MDP 重写到 \(\tilde{\mathcal{A}} = \mathcal{A} \times \mathcal{A}\),环境交互时取 \(a = (x+y)/2\),并用 mixing 系数 \(p=0.9\) 和 compression loss \(\nu (x_1-y_1)^2\) (\(\nu=0.01\)) 双重压制冗余探索。IsaacLab 8 benchmark 全胜,相对 PPO 提升 21%–2×;off-policy diffusion (DACER/QVPO) 在 4096 并行环境下几乎完全失败,强化了"on-policy 才是大规模并行模拟器的对位范式"的论点;推断 2.577 ms/call。主要疑点:\(\nu = 0.5\) 就崩说明 dummy-action 冗余只是被超参强行压住而非真正解决;和 normalizing-flow policy(最自然 baseline)没正面对比;摘要里的"real-world deployment"实际全部停留在 IsaacLab;多模态探索这个理论优势没有针对性实验验证;PPO baseline 走 SKRL 而 GenPO 走 RSL-RL,两套实现不完全等价。
-
FRS: Improving Robotic Generalist Policies via Flow Reversal Steering (arXiv 2606.13675, 2026-06, CORL 2026 投稿) Andy Tang*, William Chen*, Andrew Wagenmaker, Chelsea Finn, Sergey Levine — Stanford / UC Berkeley(DSRL 一作 + π 系列 PI 阵容) 利用 flow matching 的确定性 noise↔action 双射做 policy steering:人或 VLM 只给粗糙的笛卡尔方向参考动作,沿冻结 π₀.₅ 的 ODE 反向积分(10 步 Euler,与一次去噪计算量相同、零训练)得到对应噪声 â₀,再正向去噪——有限步积分误差恰好把 OOD 参考「拉回」VLA 流形,得到方向一致但 in-distribution 的精细动作。三种用法层层递进:(1) zero-shot steering(92 个 LIBERO 任务 8.6%→13.3%,base ≤2% 的困难任务里救活 11 个);(2) DSBC — 把 (o, â₀) 当专家噪声动作做监督学习,~1 GB GPU、<1 分钟训出小 MLP noise policy,真机 6 任务 10 条轨迹/任务 20%→80%(同数据 standard BC 全部 0%——noise policy 在 OOD 状态会 fallback 到 VLA prior,隐式抗 compounding error),还能对任意存量 demo 数据离线造噪声标签;(3) DSRL + FRS — FRS 轨迹 prefill buffer + BC 辅助 loss,15 任务 RL 终点 67% vs DSRL 45%,base 近 0% 的 10 个困难任务上仅一条 FRS 成功轨迹即可 bootstrap 到 62%。消融显示给噪声加 σ=1~2 扰动反而涨点(好噪声是区域不是点)。主要疑点:摘要 "95% boost" 是单任务最佳 vs 平均 +4.7% 的落差;核心机制依赖未被刻画的有限步积分误差、理论解释只有 2D toy example;VLM 接口含铅垂线标注等特权标定信息且无消融;旋转不可 steer;与 concurrent UniSteer 机制重叠;partial noising baseline 只测一个超参点。与本库 GenPO(flow 反演估 likelihood)、ZPRL(bottleneck latent steering)同族。
-
OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation (arXiv 2605.25829, 2026-05) Xinzhe Chen, Sihua Ren, Liqi Huang, Haowen Sun, Mingyang Li, Xingyu Chen, Zeyang Liu, Xuguang Lan — 西安交通大学 人机混合增强智能国家重点实验室 指出 VLA / WAM 的 intermediate 都停在 observation space,decoder 要 implicit 还原刚体几何;提出 "geometrically aligned intermediate" design principle 并实例化为 OASIS:3D-aware encoder (Qwen2.5-0.5B Prismatic VLM + frozen DA3METRIC-LARGE) → 4 层 transformer SE(3) trajectory predictor(8 步 camera-frame,axis-angle,\(\ell_1\) loss)→ 2 层 action decoder 只 cross-attend pose-supervised hidden + state。0.18B 可训参数、4 块 A800、无大规模 robotic 预训。LIBERO 97.6 / CALVIN ABC→D 4.57 / 真机 89.2% / OOD Goal 90.8%,data efficiency 上 10 demo 追平 \(\pi_{0.5}\) 25 demo。最强消融:AuxTraj(轨迹 loss 走旁路、hidden 不进 decoder)89.7 ≈ w/o Traj. 89.5,把"几何对齐"和"信号路由"切干净;闭式 decoder 给特权 gripper 信号仍崩到 0.0% / 12.4%,证明 learned decoder 不可替代。主要局限:单帧观测下做 8 步预测假设动作仅依赖当前帧(接触/力觉任务出局)、OOD 实验只在 Goal 一个任务上做且扰动温和、real-world Long task 的 +11.7 在 Wilson CI 重叠区间内、"no pretraining" framing 弱化了内部 VLM + DA3 都是重预训的事实。
-
Utonia: Toward One Encoder for All Point Clouds (arXiv 2603.03283, 2026-03) Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao — HKU / CUHK / 小米(Pointcept 谱系) 点云 SSL 长期按 domain 割裂(Sonata/Concerto 单 domain 训、跨 domain 崩),本文先做 pilot study 把"naive 混数据集为何失败"拆成三个病根——粒度(grid size = 度量单位)敏感、重力约定偏置、模态可用性不一致,再用三个 domain-agnostic 极简修复把它们逐一治掉:Causal Modality Blinding(per-data + per-point 随机丢 color/normal,loading 阶段丢最有效)、Perceptual Granularity Rescale(按"固定角分辨率观察者"把所有点云缩放到共享感知粒度,scene 保 upright / object 上 SO(3))、RoPE on granularity-aligned coordinates(在对齐后的连续坐标上加 parameter-free 旋转位置编码,对密度不均增益最大)。在 250k 跨 domain + 1M Cap3D 上两阶段训出单个 PTv3 encoder(38M/137M,64×H20)。最强证据是模态鲁棒性:Concerto 缺 color 时 linear mIoU 从 77 暴跌到 36.8,Utonia 仍 77.0。最大问题:唯一的细粒度 object 基准 PartNetE 的 linear probing 反而从 Concerto 55.8 暴跌到 39.8(且放大数据继续伤它 45.6→39.8),被框成"readout 问题";室外 full fine-tune 还不如单 domain Sonata;"emergent behaviors"叙事缺定量证据;继承自 Concerto 的 cross-modal recipe 未被消融隔离。
-
DeFI: Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining (arXiv 2604.16391, 2026-04) Wenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang — 上海交大 / 复旦 / 宁波东方理工 EIT / 上海创智学院 / 清华 针对当前 VLA「2D 视觉预测与 3D 动作预测缠绕训练 → 目标竞争不稳、且吃不下 action-free 人类视频」的矛盾,提出先分离后耦合:GFDM 用 SVD 视频生成在人+机器人视频上学 forward dynamics(推理时单步去噪、下游冻结),GIDM 用 DINOv2 + 时空 Transformer + VQ-VAE 自监督地从无标注视频对里抽 latent action,再用 30M DiT adapter 端到端耦合微调。CALVIN ABC-D 4.51(multi-view,+4.2% over VPP)、SimplerEnv-Fractal 51.2%、真机 Franka 81.3%,10% 数据即超 VPP 18%。最大问题:SimplerEnv 正表删掉了 π₀/RT-2-X/SpatialVLA 等更强 baseline(且自报数从草稿 75.1% 跳水到 51.2%),CALVIN「未见环境」泛化叙事被「GFDM 预训练里含 30% CALVIN-ABC」削弱,human-video 消融表还有一处 per-task 行 copy-paste 导致的算术自相矛盾。
-
Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action (arXiv 2605.15153, 2026-05) WFM System Group — Beijing Innovation Center of Humanoid Robotics (X-Humanoid) 主张具身基础模型不该把 understanding/reasoning/imagination/action 拆成专家拼装,而应训练成一个共享表示的闭环。具体实现:用 Qwen3-VL-4B 把场景/指令/历史观察/动作编码并自回归产出 CoT,把 CoT 末端 hidden state 投影成 dense loop state \(z\);一个由 Wan2.2-5B 初始化的统一 DiT 在同一去噪过程、同一 \(z\) 条件下联合生成未来视频与未来动作(共享 transformer 宽度,仅输入/输出头 modality-specific),text/video/action 三 loss 全回传到 \(z\)。单 checkpoint 三栖:VLM 8 榜均分 64.7、RoboTwin 93.5(第 2,被纯 WAM 的 MotuBrain 95.9 超过)、WorldArena EWM 66.03(第 1,但仅领先 1.8 分且靠 Motion/3D 两项撑)。最大问题:支撑"闭环带来增益"的真机定量表与关键 ablation 在源码里全被注释删除,正文只剩定性图,且被当作亮点的 action-refine 机制实际缺席、延迟数字全无。
-
LA-Pose: Latent Action Pretraining Meets Pose Estimation (arXiv 2604.27448, 2026-04) Wang, Nair, Chidananda, Kachana, Li, Brown, Furukawa — Wayve & Simon Fraser University 把 Genie 式 latent action 从"动作条件/控制代理"重新定位成相机位姿估计的输入特征:在 1020 万条无标注驾驶视频上用 inverse-forward dynamics 自监督学 latent action(T-SNE 下天然聚成左转/直行/停车簇),再冻结 inverse dynamics 编码器、只用极少量 LiDAR 标定 3D 标注 post-train 一个带 metric scale token 的轻量 pose head。核心 insight:对车辆而言 motion 即 action,latent action ≈ 压缩版 pose。Waymo AUC@5 91.4 / PandaSet(unseen) 86.3,比用更多 3D 监督的 VGGT/Rig3R/MapAnything 高 10+ 点,且冻结 backbone 泛化更优、计算成本远低于 VGGT(4 天 vs 64×A100×9 天)。
-
ZPRL: Beyond Action Residuals — Real-World Robot Policy Steering via Bottleneck Latent RL (arXiv 2605.19919, 2026-05) Yu, Lei, Jiang, Pan, Xu — HKU, 上海期智研究院, SJTU, CASIA & 清华 IIIS 针对"RL 该介入预训练 imitation 策略的哪个接口",提出 ZPRL:离线给 flow-matching 策略挂一条 plug-and-play 的 VIB bottleneck 旁路(stop-grad 不扰原 IL 路径),在线冻结整个 base policy,只用 SAC 学习对 16/32 维 bottleneck latent 的残差扰动 \(\Delta z\),经冻结 decoder + flow 间接 steer 动作生成。相比 action 残差(Po-Dec)探索更平滑(square 上速度/加速度降约 29%/39%),8 仿真任务 + 4 真机任务上提升明显,真机平均 SR 较 base 提升 33.7%(Insert Bills 20%→77.5%)。核心 insight:steering 接口应同时 compact + structured,消融显示增益不来自单纯降维。
-
SimDist: Pretraining World Models in Simulation for Rapid Real-World Adaptation (arXiv 2603.15759, 2026-03) Levy, Westenbroek, K. Huang, Palafox, Yin, Omidshafiei, Kim, Gupta, Fridovich-Keil — UT Austin, U Washington & FieldAI 在仿真里用 privileged 专家 + 刻意注入次优/失败动作的多样化数据,蒸馏出 planning 导向的 latent 世界模型;真机部署时冻结 encoder/reward/value/policy,只用监督式 system identification 微调 dynamics 并配 MPPI 规划,把不稳定的真机 RL 降维成稳定监督学习。核心洞察是 reward/value 只需"排序"正确就能跨 sim-to-real 迁移,dynamics gap 则用少量真机数据修正。在 UR5e 操作(Peg/Table Leg)与 Unitree Go2 运动(Teflon 斜坡/泡沫)上仅 15–30 分钟真机数据即单调提升、约 2× 于 RLPD/IQL/SGFT/Diffusion Policy/π₀.₅。
-
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs (arXiv 2605.17260, 2026-05) Kim, Parthasarathy, Qin, Hur, Sun, Han, Yang, Gong — Google & Seoul National University 指出 post-hoc token reduction 解决了 LLM 瓶颈后 ViT 反成新瓶颈,提出 LiteFrame:87M ViT-Base + DW 1D 时序卷积,用 Compressed Token Distillation(WAP-pooled teacher 输出作为 supervision target)+ LoRA-LMA 训练,相比 InternVL3-8B 端到端 latency −35%、帧数 8×,并在四个 video benchmark 上平均准确率反超 teacher。
-
Fast-WAM: Do World Action Models Need Test-time Future Imagination? (arXiv 2603.16666, 2026-03) Yuan, Dong, Liu, Zhao — Tsinghua IIIS & Galaxea AI 把 World Action Model 的两个常被混在一起的因素拆开:训练时的 video co-training,与推理时的 future imagination。结论是前者才是 gain 的来源 — 让 Fast-WAM 在 LIBERO/RoboTwin/真实毛巾折叠上保持 SOTA 水平的同时把推理延迟压到 190 ms,比 imagine-then-execute 快 4×。
-
EgoExo-WM: Unlocking Exo Video for Ego World Models (arXiv 2605.15477, 2026-05) Tran, Martín-Martín, Grauman — UT Austin 用 3D human pose 作为统一接口,把第三人称视频转换为第一人称世界模型的训练数据。配上 wrist-consistency loss 与 DINOv3 latent 训练,在 HOMAGE/LEMMA/Ego-Exo4D 上击败 PEVA 与 EgoControl,并支持 MPC 规划。
-
ABot-M0: VLA Foundation Model with Action Manifold Learning (arXiv 2602.11236, 2026-02) AMAP CV Lab — Alibaba 整合 6 个开源数据集成 UniACT-dataset(6M+ trajectories / 9500h / 20+ embodiments),配合 Qwen3-VL + 0.16B DiT 的双流架构。核心 Action Manifold Learning 把 DiT 预测目标从噪声/速度改为干净动作 chunk,在 long action chunk(30)下相比 noise-prediction baseline 少掉 15+ pt,LIBERO 98.6 / LIBERO-Plus 80.5 SOTA。
-
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment (arXiv 2603.23376, 2026-03) AMAP CV Lab (Alibaba) 14B Wan2.1-I2V DiT + 物理对齐的 Diffusion-DPO(LoRA 复用作 reference 节省显存 + Qwen3-VL/Gemini 3 Pro 解耦判别器) + VACE-style 并行 context block 注入 2D action map;同时发布 OOD 的 EZSbench。PBench Domain Score 0.9306 超过 Veo 3.1 / Sora v2 Pro。
-
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos (arXiv 2602.10102, 2026-02) Zhongwei Ren, Yunchao Wei, Xiaojie Jin 等 — ByteDance Seed / 北京交通大学 VideoWorld 续作,直面 V1 在真实视频上"appearance 和 dynamics 纠缠 → 长 horizon 漂移"的根本问题。核心是 dLDM:把原 LDM 的 reconstruction decoder 替换成 pretrained Cosmos DiT 2B (VDM),让 latent code 只编码 task-relevant dynamics、外观全交给 VDM,并保留一个 gradient-stopped 的 ControlNet-like 旁路把 VQ-VAE 解码器产出的 low-fidelity 运动线索喂给 VDM 稳定训练。自建 Video-CraftBench(~7h 折纸+积木长序教程)+ DINOv2 分类器 7-step 评估:单训 Video-Craft 即 step-7 68.8%(vs Wan2.2 14B 0.0% / V1 0.0%);OpenX & Craft 联训 step-7 72.3%;CALVIN cross-domain OpenX 预训 Avg.Len. 2.88 超 LAPA 2.51 与 video oracle 2.46。Codebook 与 V1 反向缩到 1000、\(N=4\)、\(T=93\)。最大短板:Cosmos AR 4B + DiT 2B 都是文本预训过的大模型,"unlabeled video learning" 的口号被偷渡;VDM 必须 full fine-tune(freeze/LoRA 都崩),latency/GPU·hours 一字未提;CALVIN 仍仿真、真机折纸缺位;UMAP 软证据;CoLA 同期工作 step-7 40.2% 跟 V2 的 30pp 差距更像 implementation 投入而非范式优势;DINOv2 评测分类器训练集包含 model-generated successful frames。
-
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos (arXiv 2501.09781, 2025-01, CVPR 2025) Zhongwei Ren, Yunchao Wei, Xiaojie Jin 等 — 北京交通大学 / ByteDance Seed 首次系统探索"video-only AR + next-token prediction 是否能学会 reasoning / planning"。核心是 Latent Dynamics Model (LDM):用 \(H\) 个 learnable query 把"当前帧到未来 \(H\) 帧的视觉变化"压成 FSQ 量化的 latent code(codebook 64,000),让 LLaMA 架构 transformer 同时预测下一帧 VQ token 与 latent code,把"关键动作"从"无关像素细节"里分离。围棋自建 Video-GoBench(10M 9×9 棋谱),300M 模型 video-only Elo 2317 超 KataGo-5d 业余 2253(论文宣传为"5-dan professional level"——业余/职业混用);CALVIN +30k traj 接近 oracle、CALVIN+RLBench 联训单 checkpoint 跨环境。Intervention 实验显示替换第 1 个 latent code 性能暴跌 (73.9→46.2 Act-Value),证明因果序列结构。主要短板:headline 5-dan 是业余段位、no-LDM baseline (Elo 1998) 有抽水嫌疑、\(H>5\) + codebook>64k 直接训练发散无可操作经验、所有实验在仿真/合成、IDM 仍需 action-labeled 数据;"forward planning"主要靠 UMAP 软证据。后续 V2 (2602.10102) 直接承认 V1 在真实视频上不工作。
关于这个归档¶
- 每篇论文一个目录,命名为 arXiv ID,包含 PDF 原文与中文叙述总结。
- 由 paper-read skill 在 Claude Code 中生成。
- 站点由 MkDocs Material 渲染,部署在 Cloudflare Pages。