跳转至

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

论文阅读笔记 — 用于后续讨论的概览


1. 基础信息

  • 题目: Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
  • 作者: Qwen Team(核心贡献者 Qiuyue Wang*, Mingsheng Li*, Jian Guan*, …, Shuai Bai†, Jingren Zhou,*共同一作 †通讯)— Alibaba Qwen
  • arXiv 编号: 2605.30280 (submitted 2026-05;模板为 COLM 2024)
  • 关键词: vision-language-action, embodied foundation model, flow matching, DiT action expert, embodiment-aware prompting, multi-embodiment co-training, manipulation, vision-language navigation, RL post-training

Qwen-VLA overview Figure 1:一个统一模型同时吞下 manipulation / navigation / VL 三类数据,左侧 Qwen3.5 VLM 做感知与理解,右侧 DiT flow-matching action expert 做连续动作生成,输出既可以是机器人动作也可以是文本回答。

2. 文章介绍

2.1 解决的领域和问题

本文属于 embodied foundation model / VLA(Vision-Language-Action) 方向。当前具身智能的主流做法是为每个场景或任务单独训一个专用模型:manipulation 模型针对桌面或灵巧手控制,navigation 模型围绕室内 waypoint 预测,二者在观测格式、控制频率、预测 horizon、动作维度、评测协议上全都不同。这种碎片化使得能力无法在任务、环境、机器人本体之间迁移,也难以像通用 VLM 那样靠规模化预训练吃到红利。

论文要回答的核心问题是:这些表面异构的具身决策问题,能否被统一进单一 VLA 模型里联合训练?

2.2 Motivation

作者的核心 insight 是:尽管 manipulation、navigation、egocentric human motion、trajectory prediction 输出形式各异,它们共享同一个计算结构——给定视觉观测 + 语言指令 + 本体约束,预测一段在物理与语义上对齐的未来动作/轨迹。既然底层结构一致,就应该用一个统一的 conditional prediction 框架把它们全部纳入,让视觉 grounding、空间推理、连续动作生成的能力在不同本体之间互相迁移。再叠加 Qwen3.5 这种强多模态 backbone,就能把"通用 VLM 预训练"的范式复刻到具身领域。

2.3 之前工作的问题

类别 代表工作 缺陷
Manipulation 专用策略 π0 / π0.5 / GR00T N1.6 局限于桌面或灵巧操作,单 embodiment,跨任务/跨本体迁移差
Navigation 专用模型 NaViD / Uni-NaVid / NaVILA / StreamVLN 围绕室内 waypoint/离散动作设计,与 manipulation 完全割裂
离散 token 化动作 OpenVLA / π0-FAST 自回归离散动作,难表达高频高维连续控制的多模态分布
多 embodiment 处理 各 specialist 通常靠 per-embodiment 输出头/独立策略,无法共享单一接口
仅 imitation 训练 多数 VLA 优化的是 demo likelihood,不是闭环 task success,分布漂移即失败

2.4 论文解决方案(一句话)

在 Qwen3.5-4B 多模态 backbone 上挂一个 1.15B 的 DiT flow-matching action expert,用 embodiment-aware 文本 prompt 作为唯一的本体接口,把 manipulation/navigation/egocentric/trajectory 全部统一进同一个 action-and-trajectory 预测空间,再用 T2A→CPT→SFT→RL 四阶段渐进训练,训出一个跨任务/跨环境/跨本体的通才策略 Qwen-VLA。

2.5 与前序工作的关系

  • backbone 直接复用 Qwen3.5(原生多模态、early-fusion、hybrid attention:多数层 gated linear attention + 间隔的 grouped-query softmax attention)。
  • action expert 沿用 π0 系列的 flow-matching policy 思路(Lipman 的 conditional flow matching),DiT 结构借鉴 SD3/Peebles 的 AdaLN-DiT。
  • 数据上大量复用公开数据集:RoboSet / AgiBot World / DROID / BridgeData V2 / RH20T / RT-1 等真机数据,Ego4D / EPIC-KITCHENS(经 VITRA 处理)/ EgoDex / EgoVerse / Xperience 等 egocentric 数据,仿真用自研 RoboInF + IsaacLab + cuRobo。
  • RL 用 RLinf 框架 + PPO/GAE。

3. 方法介绍

3.1 形式化

统一为 conditional prediction:在时刻 \(t\),模型接收视觉上下文 \(o_t\)(单帧/多帧/视频/历史窗口)、语言指令 \(x\)、本体描述 \(e\)、可选任务标识 \(z\),预测 horizon \(H\) 内的目标序列:

\[p_\theta(y_{t:t+H-1} \mid o_t, x, e, z)\]

\(y\) 在不同任务下语义不同但落进统一的 action-and-trajectory 空间:manipulation 是未来末端位姿/关节,navigation 是 waypoint,trajectory-centric(自动驾驶/运动预测)是连续坐标轨迹,egocentric 是 MANO/骨骼 pose。作者强调该框架在输入轴(加 episodic memory)与输出轴(co-predict 未来视觉状态 → world model)上都可扩展。

3.2 模型架构

Architecture & training recipe Figure 2:左为架构——VLM hidden states 与带噪 action chunk 拼成一条序列送进 DiT,DiT 每个 block 是 Self-Attention + Feed-Forward MLP + AdaLN(timestep 条件)。右为四阶段训练:(I) T2A 只训 DiT、冻 VLM、无图像;(II/III) CPT/SFT 全解冻引入图像;(IV) RL 接环境 reward。

  • VLM backbone:Qwen3.5(natively multimodal,ViT + spatial merging,视觉 token 直接交织进文本流)。
  • Action expert:single-stream DiT flow-matching policy。把 VLM hidden states 与 noisy action chunk 拼接成一条序列,经 joint self-attention + AdaLN timestep conditioning + 与 backbone 对齐的 multi-section RoPE。flow-matching 训练,推理时几步 Euler 积分出动作 → 低延迟实时控制。
  • 参数量:action expert ≈ 1.15B:16 个 DiT block 是大头(每块 70.8M,共 1.13B),其余为 action projection MLP(4.9M)、VLM→DiT 维度线性层(3.9M)、timestep embedding(2.8M)、输出 AdaLN modulation(4.7M)。

3.3 Embodiment-aware Prompt Conditioning

唯一的本体接口是一段文本 prompt(不改任何架构),模板:

The robot is {robot_tag} with {single arm / dual arms}[, waist][, and mobile base]. The control frequency is {FPS} Hz. Please predict the next {chunk_size} control actions to execute the following task: {ori_instruction}.

FPS 与 chunk_size 取数据集原始控制频率与预测 horizon。部署到真机时只需把 prompt 换成物理平台的描述,backbone 和 DiT 完全不动 → 零样本跨本体。

3.4 Unified Action & Trajectory Representation

关键设计:统一 tensor 接口 + masking,但不强行把所有本体压进同一物理动作语义空间。每个样本贡献目标张量 \(\mathbf{Y}\in\mathbb{R}^{H\times K}\)\(H\) 固定 horizon,\(K\) 固定通道数(所有控制模式共享)。

  • 通道布局:某控制模式用 \(c\le K\) 通道,放在 \(\mathbf{Y}\) 的前 \(c\) 维,其余 \(K-c\) 维零填充;二值 mask \(\mathbf{M}\in\{0,1\}^{H\times K}\) 记录哪些通道/时间步有效(\(M_{h,k}=1\) iff \(k<c\)\(h<H_{\text{task}}\))。无需任何 per-embodiment 输出头。
  • 控制信号:manipulation(Δ末端位置、Euler/四元数旋转、绝对关节、gripper、灵巧手关节)和 navigation(\((\Delta x,\Delta y,\Delta\theta)\) per waypoint)虽语义不同,但都被当作"区间内实值向量序列"统一处理。
  • 归一化:每个数据集按 1%/99% 分位数做 per-dataset quantile normalization 到 \([-1,1]\),去掉尺度差异同时保留运动结构。各数据集保留原生动作格式,靠 prompt 告知控制约定。
  • 多视角:用 <|tag_start|> <image> <|tag_end|> 包裹每张图(tag 如 ego / cam_left_wrist),让 backbone 形成 view-aware 表示。

3.5 训练目标

两个 loss 加权和:

  • Flow-matching action loss:clean target \(\mathbf{Y}_0\)、noise \(\mathbf{Y}_1\sim\mathcal{N}(0,I)\)、线性插值 \(\mathbf{Y}_\tau=(1-\tau)\mathbf{Y}_0+\tau\mathbf{Y}_1\),训 \(v_\theta\) 预测 conditional velocity field。用 per-channel, per-step 两级平均:先在每个有效通道内按 mask 求 MSE,再对 \(c\) 个有效通道均匀平均,保证每个控制维度等权贡献梯度、padding 完全排除。
  • Vision-language loss:在辅助 VL 数据、fine-grained action caption、自动驾驶 VQA、通用 VL 语料上做 next-token prediction,防止 backbone 灾难性遗忘。
  • 联合\(\mathcal{L}=\lambda_{\text{act}}\mathcal{L}_{\text{act}}+\lambda_{\text{vl}}\mathcal{L}_{\text{vl}}\),权重调到两者梯度量级平衡;每个 mini-batch 按固定比例混合所有任务族。

3.6 四阶段训练 Recipe

作者用 compression(压缩-解压)视角解释:语言指令 + embodiment prompt 是高度压缩的任务意图(几十个 token),动作轨迹是高维高频信号(数千关节值),二者间是结构化"解压"问题。冷启动时 backbone 已强预训练而 DiT 随机初始化,二者状态严重不对称,naive 联合训练既低效又不稳。

  • Stage I — T2A (Text-to-Action DiT pretraining):冻 VLM、只训 DiT、故意不给图像,强迫 decoder 成为纯语言→动作解压器,在引入视觉前先建立结构化 action prior(语言选动作区域、prompt 指定平台运动参数化、flow-matching 管生成过程)。
  • Stage II — CPT (Continued Pretraining):解冻两个模块,在异构混合数据(含仿真 + 真机)上把 action prior grounding 到视觉观测。产出 Qwen-VLA-Base
  • Stage III — SFT:从 CPT 分两条平行轨——多任务 SFT(VQA + spatial grounding + manipulation + navigation,embodiment/task 平衡采样);以及在 in-house 遥操作数据上为真机部署微调。
  • Stage IV — RL:从多任务 SFT checkpoint 起,仅在 SimplerEnv 单一仿真环境用稀疏二值成功 reward 做 PPO,产出最终 Qwen-VLA-Instruct,刻意测试单环境 RL 的 task-success 增益能否迁移到 OOD 环境。

3.x Implementation Details

  • 预训练数据混合(Table,按比例):Robot Manipulation Trajectories 74.2%、Navigation 7.5%、Egocentric Human 6.0%、Synthetic Simulation (ours) 3.7%、General VL 3.4%、Spatial Grounding (2D) 2.5%、Autonomous Driving VQA 2.4%、Fine-Grained Action Caption 0.2%。真机数据 >10,000 小时;in-house 真机 >1,000 小时(约占 20%);自研仿真 >8M 条轨迹。
  • Egocentric 动作表示:每只手 SE(3) wrist 相对运动(6 维:平移 + axis-angle),手部 articulation 用 45 维 axis-angle 做 PCA 取前 10 主成分(eigengrasps),共 32 维/step(双手)
  • Language-action 仿真数据:6 个任务模板 × 6 个单臂机器人(Franka Panda / UR10e / UR5e / Kinova Gen3 / TM12 / xArm7),每对约 200k 条,共 ≈7.2M 条 / >14,000 小时,50Hz 记录关节位置/速度/末端位姿/gripper,无物理仿真无渲染(cuRobo 批量运动规划),专供 Stage I T2A。
  • Vision-conditioned 仿真数据:RoboInF + IsaacLab,20 场景 × 10 初始配置 = 200 base scene,450 任务,每任务 300 条带 domain randomization(~3K 背景 + 1K 桌面纹理),共 359,848 条完整成功轨迹(含子任务段)。
  • RL 细节:PPO(\(\epsilon=0.2\))+ GAE(\(\gamma=0.99,\lambda=0.95\)),value head 直接挂 backbone(stop-grad,LR \(10^{-4}\) ≈ actor LR \(5\times10^{-6}\) 的 20×)。flow-matching 下的 log-prob:把 probability-flow ODE 转成 SDE,每个 Euler 去噪步变成显式 Gaussian → 解析 log-prob;默认随机选单个去噪步估计,只需 1 次额外 DiT forward。log-prob 与 advantage 都在 action-chunk 级\(H=16\),一个 chunk 一个 scalar reward/advantage)。128 并行 env,每 iteration 8 epochs × 128 steps → 8,192 transition chunks;rollout 温度 \(\tau=1.0\),评测 \(\tau=0.6\);client-server 解耦 rollout。
  • 下游 manipulation chunk \(H=16\),navigation waypoint horizon 8。SFT loss 权重:VL next-token 0.1,manipulation/navigation action 各 1.0。

4. 结果对比

4.1 仿真 Manipulation(specialists vs 单一 generalist)

Method Type LIBERO RoboCasa-GR1 Simpler-WidowX RoboTwin-Easy RoboTwin-Hard
π0 Specialist 94.4 -- -- 65.9 58.4
StarVLA-OFT Specialist 96.6 48.8 64.6 50.4 --
GR00T N1.6 Specialist 97.2 49.9 63.2 47.6 --
π0.5 Specialist 97.6 37.0 46.9 82.7 76.8
ABot-M0 Specialist 98.6 58.3 -- 86.0 85.0
Being-H0.5 Specialist 97.6 53.3 -- -- --
Qwen-VLA-Base Generalist 90.8 40.4 64.3 64.3 66.4
Qwen-VLA-Instruct Generalist 97.9 56.7 73.7 86.1 87.2

注:specialist 是每个 benchmark 单独 fine-tune 的;Qwen-VLA 是一次性多本体联合训练、靠 prompt 切换部署到全部平台。Instruct 在 Simpler-WidowX / RoboTwin-Easy / Hard 上超过所有 specialist,LIBERO/RoboCasa 紧随最强 specialist。Base→Instruct 增益:LIBERO +7.1、RoboCasa +16.3、Simpler +9.4、RoboTwin-Easy +21.8、Hard +20.8。

4.2 真机 ALOHA(双臂,预训练的价值)

In-domain(成功率 %):

Model Pick&Place Table Clean Bowl Stack Bowl P&P Towel Fold Fine-grained Avg
GR00T N1.6 30.8 38.5 53.8 19.2 19.2 10.3 28.6
π0.5 73.1 84.6 88.5 69.2 80.8 33.3 71.6
Qwen-VLA-aloha (w/o pretrain) 30.8 53.8 61.5 64.1 50.0 30.8 48.5
Qwen-VLA-aloha (w/ pretrain) 96.2 92.3 98.7 87.2 65.4 61.5 83.6

OOD(成功率 %):

Model Color Instance Position Background Instruction Avg
GR00T N1.6 46.2 38.5 3.8 19.2 19.2 25.4
π0.5 57.7 61.5 19.2 26.9 42.3 41.5
Qwen-VLA-aloha (w/o pretrain) 42.3 30.8 34.6 30.8 42.3 36.2
Qwen-VLA-aloha (w/ pretrain) 88.5 76.9 53.8 80.8 84.6 76.9

同架构下,预训练把 in-domain 48.5→83.6、OOD 36.2→76.9,OOD 上比 π0.5 高 35.4pp。说明增益来自 Qwen-VLA-Base 预训练而非架构本身。

Qualitative OOD on ALOHA Figure 3:Qwen-VLA-Base 在 ALOHA 双臂上的零样本 OOD rollout——按颜色抓球(左上)、抓训练集外新物体并做组合式"清桌"(右上)、与完全未见物体交互(左下)、未见黄色背景下拔笔帽(右下)。这些行为主要靠混入的通用 VL 数据带来的物体词汇与背景多样性迁移而来。

4.3 Navigation(VLN-CE Val-Unseen)

Method R2R OS↑ R2R SR↑ R2R SPL↑ RxR SR↑ RxR SPL↑
NaViD 49.2 41.9 36.5 45.7 38.2
Uni-NaVid 53.3 47.0 42.7 48.7 40.9
NaVILA 62.5 54.0 49.0 49.3 44.0
StreamVLN 64.2 56.9 51.9 52.9 46.0
Qwen-VLA-Base 61.7 53.8 49.4 55.1 45.8
Qwen-VLA-Instruct 69.0 57.5 51.2 59.6 47.8

4.4 OOD 静态 manipulation(SimplerEnv-OOD,仅在 Bridge pick-and-place 上 fine-tune)

Method MoveAway MoveRight PlaceNear PlaceRight PutFront StackYellow Avg
π0.5 26.1 0.0 0.0 32.1 13.0 4.2 12.6
Qwen-VLA-Base 31.3 31.6 16.7 47.1 6.3 18.8 25.3
Qwen-VLA-Instruct 43.8 33.3 39.6 47.9 4.2 22.9 32.0

π0.5 在 MoveRight/PlaceNear 上完全失败(0%),Qwen-VLA 显著拉开位置泛化差距。

4.5 OOD 动态 manipulation(DOMINO,零样本)

Qwen-VLA-Instruct 取得最高 SR 26.6% / MS 39.5,零样本即超过专门 fine-tune 动态数据的 PUMA(17.2 / 35.0)9.4pp。仅用 current-frame 观测、无任何动态微调。

4.6 关键消融

T2A ablations Figure 4:T2A 三组关键消融。(a) 数据配比 + 预测模式——20% syn + 80% real 的 full-sequence 预测峰值 71.1%,chunk 预测与含图像都明显更差;(b) timestep 分布——T2A 用 Sigmoid-Normal、SFT 用 Beta 组合最优,反着换都掉点;(c) T2A 步数——2000 步即达峰,40000 步因过拟合 T2A 语料反而下滑。

T2A 设计(SFT 后在 Simpler-WidowX 的成功率 %):

配置 成功率
T2A 纯 real 数据 51.04
T2A 纯 synthetic 64.06
T2A ~20% syn + 80% real,full-sequence 71.09
chunk 预测(10% syn) 60.42(比 full-seq 低 4.94pp)
chunk + 含图像(10% syn) 57.55(再 −2.87pp)
Beta@T2A(换掉 Sigmoid-Normal) 65.36(−5.73)
Sigmoid-Normal@SFT 62.76(−8.33)
Beta 两阶段都用 59.38
T2A 步数 2k / 4k / 10k / 40k 71.09 / 67.45 / 67.19 / 60.42(40k 过拟合)

结论:T2A 用 full-sequence、20% syn+80% real、Sigmoid-Normal \(p(\tau)\)、2000 步最优;图像必须在 T2A 完全屏蔽

Post-training 累积效应

Stage Simpler RoboCasa RoboTwin-E RoboTwin-H LIBERO SimplerOOD DOMINO SR DOMINO MS
CPT 64.3 40.4 64.3 66.4 90.8 25.3 21.1 37.4
+SFT 70.8 56.0 86.3 87.1 97.8 31.6 25.7 39.1
+RL 73.7 56.7 86.1 87.2 97.9 32.0 26.6 39.5

RL 仅在 SimplerEnv 收集 rollout,最大增益在 SimplerEnv 本身(+2.9pp),其余 benchmark 保持或小幅正迁移,无灾难性遗忘。

其它消融:VL 数据 co-training 在难任务上 +4.9pp(RoboCasa)/ +4.6pp(RoboTwin);预训练 DiT 比 from-scratch 收敛更快峰值更高;投影头 Multi-MLP / Concat / Zero-Pad 差异 <1.2pp,选参数最省的 Zero-Padding;state conditioning(VLM prompt / DiT)最多只 +1.3pp,最终不用 state,只保留文本 prompt 作为唯一本体接口。

5. 引申问题 / 讨论

5.1 做得好的地方

  1. 统一 tensor 接口 + masking,而非统一物理语义空间。这是比"强行对齐所有本体动作"更聪明的折中:固定 \(K\) 通道 + 前 \(c\) 维有效 + per-channel mask,单套 DiT 参数吃下所有控制模式,padding 不污染梯度(两级平均保证每维等权)。配合 per-dataset quantile 归一化,既消除尺度差异又保留各源原生动作格式。

  2. embodiment 用文本 prompt 编码 → 唯一接口。把"机器人是谁、几条臂、控制频率、horizon"全压进自然语言,使得跨本体不需要任何架构改动、部署到真机只换 prompt。这也是 RL 能零样本迁移到 OOD 环境的前提(prompt 不变 → 无分布漂移)。

  3. compression 视角下的 T2A 阶段。把"语言→动作"看作结构化解压,先在无图像、无 backbone 干扰的条件下训出 language-indexed action prior,再把视觉 grounding 留给 CPT。这避开了冷启动时随机 DiT 梯度扰动预训练 backbone、且每步都白付图像编码成本的问题。消融充分(数据配比、full-seq vs chunk、有无图像、timestep 分布、步数)。

  4. T2A 的 timestep 分布选择有物理直觉且被验证。无视觉条件时 backbone 给不了去噪引导,于是用 Sigmoid-Normal 把梯度推向中间噪声水平(信噪比最有信息);有了 backbone 条件后 CPT/SFT 换回 Beta。这个"阶段相关 \(p(\tau)\)"是有解释力的设计,且消融显示乱换会掉 5–8pp。

  5. flow-matching 下的 PPO log-prob 估计。把 probability-flow ODE 转 SDE 让每个去噪步变成显式 Gaussian,从而能算解析 log-prob;默认只采单步、只多一次 DiT forward。这是把 diffusion/flow policy 接进 on-policy RL 的工程关键,且 chunk 级 reward/advantage 与 decoder 输出粒度天然对齐。

  6. RL 单环境训、跨环境测的实验设计。刻意只在 SimplerEnv 收 rollout,然后看 RoboCasa/RoboTwin/LIBERO/DOMINO 是否保持——这是对"RL 是否引入过拟合/遗忘"的诚实检验,结论是温和正迁移。

5.2 做得不够好的地方 / 值得质疑的地方

  1. "单一 generalist 超过 specialist"的口径需要谨慎。Table(§4.1)里 specialist 各自 per-benchmark fine-tune,而 Qwen-VLA-Instruct 是经过 SFT + RL(在 SimplerEnv 上专门优化) 的。Simpler-WidowX 的 73.7% 恰恰是 RL 直接优化的环境,拿它去和"未做 RL 的 specialist"比并不完全对等。真正的同台是 Qwen-VLA-Base(generalist 无 RL),而 Base 在多数 benchmark 明显落后 specialist(LIBERO 90.8 / RoboCasa 40.4)。

  2. RL 的"跨环境迁移"被叙述放大了。Table(§4.6)里除 SimplerEnv 本身(+2.9pp)外,RoboCasa +0.7、RoboTwin-Hard +0.1、LIBERO +0.1、SimplerOOD +0.4,全部在噪声量级。把这说成"task-success optimization 带来正迁移"过强;更准确的结论是"RL 在训练环境涨、在其它环境基本不变(没退化)"。

  3. DOMINO 零样本 26.6% 超过 fine-tuned PUMA 的归因含糊。作者归功于"flow-matching 产生 coherent action chunk 减少 hesitation + 大规模预训练 prior",但这是定性叙事,没有针对性消融(比如换成离散 token decoder、或去掉预训练比较)。动态操作零样本胜过专门微调的方法,是个很强的 claim,证据链偏弱。

  4. VL co-training 的代价被淡化。Limitations 里一句"action 训练会 modestly regress 部分纯 VL 和 navigation 评测",但正文没给 backbone 在标准 VL benchmark 上训练前后的对比数字。既然卖点之一是"保留 Qwen3.5 的感知推理能力",缺这组数据是明显空白。

  5. proprietary 数据 + 自研仿真占比巨大但不可复现。in-house 真机 >1,000h(~20%)、自研 RoboInF 仿真 359,848 条 + language-action 7.2M 条,合计是预训练主力之一,但 RoboInF 细节"见 blog post",无法独立验证。74.2% manipulation 里多少来自不可获取的私有源没有拆清。

  6. T2A 主要靠"零物理零渲染"的运动规划合成数据(7.2M 条纯运动学、cuRobo 规划、无接触动力学)。这种 kinematically idealised 轨迹建立的 action prior 是否会让模型对接触/力控任务有系统性偏差?消融里"纯 syn 64% vs 20%syn+80%real 71%"已暗示 real 数据在锚定物理动力学上不可或缺,但最终 prior 仍以合成为主体,风险未被讨论。

  7. "current-frame only"是架构假设而非优势。模型基本基于单帧/当前观测预测动作 chunk(state-conditioning 消融也据此论证"相对位移预测不需要显式 state")。这等于假设动作只依赖当前帧——对需要历史、力觉、接触状态的任务(精细插拔、可变形物体、长程依赖)是硬限制。Towel Folding(真机 65.4 落后 π0.5 的 80.8)可能正是这个短板的体现。

  8. egocentric 数据 6% 的实际贡献没有单独消融。论文花大篇幅讲 eigengrasps、MANO、四个 ego 数据集,但没有"去掉 ego 数据"的对照,无法判断这 6% 到底带来多少下游收益,还是主要为了叙事完整性。

  9. navigation 联合训练实为轻微拖累。Limitations 自承 action 训练会 regress navigation;§4.3 里 Qwen-VLA-Instruct 虽在多数指标领先,但 nDTW(57.1)低于 NaVILA(58.8)和 StreamVLN(61.9),说明轨迹保真度上联合训练有代价。

  10. 评测仍以短程、benchmark 为主。作者自己在 Limitations 承认 long-horizon、failure-prone 的真实部署是 open challenge。当前所有数字都来自相对受控的 suite,"通才"在长时序鲁棒性上的真实水平未知。

5.3 值得继续探讨的方向

  • co-prediction 未来视觉状态 → world model:作者在 §2.1 与 Conclusion 明确点到"output 轴上 co-predict future visual states 即可统一 action generation 与 world modeling"。这是把本文从"action 接口"推向"world model + action"的自然下一步(对照站内 Pelican-Unified 的联合 video+action DiT)。
  • 用 latent-action IDM 替换/补充手工 action 表示:egocentric 现在靠 MANO + PCA eigengrasps 显式编码,能否像 LAPO/LA-Pose 那样用自监督 latent action 统一人/机器人动作空间,减少对显式 pose 标注的依赖?
  • 接触/力觉信号注入:state-conditioning 消融结论是"视觉够用所以不要 state",但那是在 vision 可见末端的任务上得出的;引入 tactile/force/proprioception 对插拔、可变形物体是否能突破 current-frame 假设?
  • RL 的环境多样性:当前 RL 只在 SimplerEnv,跨环境基本无增益。把 rollout 扩到多环境(RoboTwin/RoboCasa)后,task-success 优化能否带来真正的跨域提升而非仅训练环境内涨?
  • VL 能力退化的定量刻画与缓解:给出 backbone 在标准 VL benchmark 上 co-training 前后曲线,并尝试更好的 objective balancing / 数据课程 / 模块化专门化。
  • 长时序 + episodic memory:把 \(o_t\) 扩展为带历史/记忆的上下文,验证统一框架在真正长程任务上的失败恢复与重规划能力。

参考资源

  • 论文 PDF: paper.pdf
  • LaTeX 源码: source/
  • 关键 baseline / 相关论文: π0 / π0.5(black2024pi0, black2025pi05)、GR00T N1.6(nvidia2025gr00t)、ABot-M0(yang2026abotm0,本站有笔记)、Being-H0.5、StarVLA-OFT、StreamVLN / NaVILA(navigation)、PUMA / DOMINO(fang2026towards,动态操作)、VITRA(li2025vitra,ego 数据)、RLinf(yu2025rlinf,RL 框架)