Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments¶

论文阅读笔记 — 用于后续讨论的概览

1. 基础信息¶

题目: Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
作者: Qwen Team（核心贡献者 Qiuyue Wang*, Mingsheng Li*, Jian Guan*, …, Shuai Bai†, Jingren Zhou，*共同一作 †通讯）— Alibaba Qwen
arXiv 编号: 2605.30280 (submitted 2026-05；模板为 COLM 2024)
关键词: vision-language-action, embodied foundation model, flow matching, DiT action expert, embodiment-aware prompting, multi-embodiment co-training, manipulation, vision-language navigation, RL post-training

Qwen-VLA overview Figure 1：一个统一模型同时吞下 manipulation / navigation / VL 三类数据，左侧 Qwen3.5 VLM 做感知与理解，右侧 DiT flow-matching action expert 做连续动作生成，输出既可以是机器人动作也可以是文本回答。

2. 文章介绍¶

2.1 解决的领域和问题¶

本文属于 embodied foundation model / VLA（Vision-Language-Action） 方向。当前具身智能的主流做法是为每个场景或任务单独训一个专用模型：manipulation 模型针对桌面或灵巧手控制，navigation 模型围绕室内 waypoint 预测，二者在观测格式、控制频率、预测 horizon、动作维度、评测协议上全都不同。这种碎片化使得能力无法在任务、环境、机器人本体之间迁移，也难以像通用 VLM 那样靠规模化预训练吃到红利。

论文要回答的核心问题是：这些表面异构的具身决策问题，能否被统一进单一 VLA 模型里联合训练？

2.2 Motivation¶

作者的核心 insight 是：尽管 manipulation、navigation、egocentric human motion、trajectory prediction 输出形式各异，它们共享同一个计算结构——给定视觉观测 + 语言指令 + 本体约束，预测一段在物理与语义上对齐的未来动作/轨迹。既然底层结构一致，就应该用一个统一的 conditional prediction 框架把它们全部纳入，让视觉 grounding、空间推理、连续动作生成的能力在不同本体之间互相迁移。再叠加 Qwen3.5 这种强多模态 backbone，就能把"通用 VLM 预训练"的范式复刻到具身领域。

2.3 之前工作的问题¶

类别	代表工作	缺陷
Manipulation 专用策略	π0 / π0.5 / GR00T N1.6	局限于桌面或灵巧操作，单 embodiment，跨任务/跨本体迁移差
Navigation 专用模型	NaViD / Uni-NaVid / NaVILA / StreamVLN	围绕室内 waypoint/离散动作设计，与 manipulation 完全割裂
离散 token 化动作	OpenVLA / π0-FAST	自回归离散动作，难表达高频高维连续控制的多模态分布
多 embodiment 处理	各 specialist	通常靠 per-embodiment 输出头/独立策略，无法共享单一接口
仅 imitation 训练	多数 VLA	优化的是 demo likelihood，不是闭环 task success，分布漂移即失败

2.4 论文解决方案（一句话）¶

在 Qwen3.5-4B 多模态 backbone 上挂一个 1.15B 的 DiT flow-matching action expert，用 embodiment-aware 文本 prompt 作为唯一的本体接口，把 manipulation/navigation/egocentric/trajectory 全部统一进同一个 action-and-trajectory 预测空间，再用 T2A→CPT→SFT→RL 四阶段渐进训练，训出一个跨任务/跨环境/跨本体的通才策略 Qwen-VLA。

2.5 与前序工作的关系¶

backbone 直接复用 Qwen3.5（原生多模态、early-fusion、hybrid attention：多数层 gated linear attention + 间隔的 grouped-query softmax attention）。
action expert 沿用 π0 系列的 flow-matching policy 思路（Lipman 的 conditional flow matching），DiT 结构借鉴 SD3/Peebles 的 AdaLN-DiT。
数据上大量复用公开数据集：RoboSet / AgiBot World / DROID / BridgeData V2 / RH20T / RT-1 等真机数据，Ego4D / EPIC-KITCHENS（经 VITRA 处理）/ EgoDex / EgoVerse / Xperience 等 egocentric 数据，仿真用自研 RoboInF + IsaacLab + cuRobo。
RL 用 RLinf 框架 + PPO/GAE。

3. 方法介绍¶

3.1 形式化¶

统一为 conditional prediction：在时刻 \(t\)，模型接收视觉上下文 \(o_t\)（单帧/多帧/视频/历史窗口）、语言指令 \(x\)、本体描述 \(e\)、可选任务标识 \(z\)，预测 horizon \(H\) 内的目标序列：

\[p_\theta(y_{t:t+H-1} \mid o_t, x, e, z)\]

\(y\) 在不同任务下语义不同但落进统一的 action-and-trajectory 空间：manipulation 是未来末端位姿/关节，navigation 是 waypoint，trajectory-centric（自动驾驶/运动预测）是连续坐标轨迹，egocentric 是 MANO/骨骼 pose。作者强调该框架在输入轴（加 episodic memory）与输出轴（co-predict 未来视觉状态 → world model）上都可扩展。

3.2 模型架构¶

Architecture & training recipe Figure 2：左为架构——VLM hidden states 与带噪 action chunk 拼成一条序列送进 DiT，DiT 每个 block 是 Self-Attention + Feed-Forward MLP + AdaLN（timestep 条件）。右为四阶段训练：(I) T2A 只训 DiT、冻 VLM、无图像；(II/III) CPT/SFT 全解冻引入图像；(IV) RL 接环境 reward。

VLM backbone：Qwen3.5（natively multimodal，ViT + spatial merging，视觉 token 直接交织进文本流）。
Action expert：single-stream DiT flow-matching policy。把 VLM hidden states 与 noisy action chunk 拼接成一条序列，经 joint self-attention + AdaLN timestep conditioning + 与 backbone 对齐的 multi-section RoPE。flow-matching 训练，推理时几步 Euler 积分出动作 → 低延迟实时控制。
参数量：action expert ≈ 1.15B：16 个 DiT block 是大头（每块 70.8M，共 1.13B），其余为 action projection MLP（4.9M）、VLM→DiT 维度线性层（3.9M）、timestep embedding（2.8M）、输出 AdaLN modulation（4.7M）。

3.3 Embodiment-aware Prompt Conditioning¶

唯一的本体接口是一段文本 prompt（不改任何架构），模板：

The robot is {robot_tag} with {single arm / dual arms}[, waist][, and mobile base]. The control frequency is {FPS} Hz. Please predict the next {chunk_size} control actions to execute the following task: {ori_instruction}.

FPS 与 chunk_size 取数据集原始控制频率与预测 horizon。部署到真机时只需把 prompt 换成物理平台的描述，backbone 和 DiT 完全不动 → 零样本跨本体。

3.4 Unified Action & Trajectory Representation¶

关键设计：统一 tensor 接口 + masking，但不强行把所有本体压进同一物理动作语义空间。每个样本贡献目标张量 \(\mathbf{Y}\in\mathbb{R}^{H\times K}\)，\(H\) 固定 horizon，\(K\) 固定通道数（所有控制模式共享）。

通道布局：某控制模式用 \(c\le K\) 通道，放在 \(\mathbf{Y}\) 的前 \(c\) 维，其余 \(K-c\) 维零填充；二值 mask \(\mathbf{M}\in\{0,1\}^{H\times K}\) 记录哪些通道/时间步有效（\(M_{h,k}=1\) iff \(k<c\) 且 \(h<H_{\text{task}}\)）。无需任何 per-embodiment 输出头。
控制信号：manipulation（Δ末端位置、Euler/四元数旋转、绝对关节、gripper、灵巧手关节）和 navigation（\((\Delta x,\Delta y,\Delta\theta)\) per waypoint）虽语义不同，但都被当作"区间内实值向量序列"统一处理。
归一化：每个数据集按 1%/99% 分位数做 per-dataset quantile normalization 到 \([-1,1]\)，去掉尺度差异同时保留运动结构。各数据集保留原生动作格式，靠 prompt 告知控制约定。
多视角：用 <|tag_start|> <image> <|tag_end|> 包裹每张图（tag 如 ego / cam_left_wrist），让 backbone 形成 view-aware 表示。

3.5 训练目标¶

两个 loss 加权和：

Flow-matching action loss：clean target \(\mathbf{Y}_0\)、noise \(\mathbf{Y}_1\sim\mathcal{N}(0,I)\)、线性插值 \(\mathbf{Y}_\tau=(1-\tau)\mathbf{Y}_0+\tau\mathbf{Y}_1\)，训 \(v_\theta\) 预测 conditional velocity field。用 per-channel, per-step 两级平均：先在每个有效通道内按 mask 求 MSE，再对 \(c\) 个有效通道均匀平均，保证每个控制维度等权贡献梯度、padding 完全排除。
Vision-language loss：在辅助 VL 数据、fine-grained action caption、自动驾驶 VQA、通用 VL 语料上做 next-token prediction，防止 backbone 灾难性遗忘。
联合：\(\mathcal{L}=\lambda_{\text{act}}\mathcal{L}_{\text{act}}+\lambda_{\text{vl}}\mathcal{L}_{\text{vl}}\)，权重调到两者梯度量级平衡；每个 mini-batch 按固定比例混合所有任务族。

3.6 四阶段训练 Recipe¶

作者用 compression（压缩-解压）视角解释：语言指令 + embodiment prompt 是高度压缩的任务意图（几十个 token），动作轨迹是高维高频信号（数千关节值），二者间是结构化"解压"问题。冷启动时 backbone 已强预训练而 DiT 随机初始化，二者状态严重不对称，naive 联合训练既低效又不稳。

Stage I — T2A (Text-to-Action DiT pretraining)：冻 VLM、只训 DiT、故意不给图像，强迫 decoder 成为纯语言→动作解压器，在引入视觉前先建立结构化 action prior（语言选动作区域、prompt 指定平台运动参数化、flow-matching 管生成过程）。
Stage II — CPT (Continued Pretraining)：解冻两个模块，在异构混合数据（含仿真 + 真机）上把 action prior grounding 到视觉观测。产出 Qwen-VLA-Base。
Stage III — SFT：从 CPT 分两条平行轨——多任务 SFT（VQA + spatial grounding + manipulation + navigation，embodiment/task 平衡采样）；以及在 in-house 遥操作数据上为真机部署微调。
Stage IV — RL：从多任务 SFT checkpoint 起，仅在 SimplerEnv 单一仿真环境用稀疏二值成功 reward 做 PPO，产出最终 Qwen-VLA-Instruct，刻意测试单环境 RL 的 task-success 增益能否迁移到 OOD 环境。

3.x Implementation Details¶

预训练数据混合（Table，按比例）：Robot Manipulation Trajectories 74.2%、Navigation 7.5%、Egocentric Human 6.0%、Synthetic Simulation (ours) 3.7%、General VL 3.4%、Spatial Grounding (2D) 2.5%、Autonomous Driving VQA 2.4%、Fine-Grained Action Caption 0.2%。真机数据 >10,000 小时；in-house 真机 >1,000 小时（约占 20%）；自研仿真 >8M 条轨迹。
Egocentric 动作表示：每只手 SE(3) wrist 相对运动（6 维：平移 + axis-angle），手部 articulation 用 45 维 axis-angle 做 PCA 取前 10 主成分（eigengrasps），共 32 维/step（双手）。
Language-action 仿真数据：6 个任务模板 × 6 个单臂机器人（Franka Panda / UR10e / UR5e / Kinova Gen3 / TM12 / xArm7），每对约 200k 条，共 ≈7.2M 条 / >14,000 小时，50Hz 记录关节位置/速度/末端位姿/gripper，无物理仿真无渲染（cuRobo 批量运动规划），专供 Stage I T2A。
Vision-conditioned 仿真数据：RoboInF + IsaacLab，20 场景 × 10 初始配置 = 200 base scene，450 任务，每任务 300 条带 domain randomization（~3K 背景 + 1K 桌面纹理），共 359,848 条完整成功轨迹（含子任务段）。
RL 细节：PPO（\(\epsilon=0.2\)）+ GAE（\(\gamma=0.99,\lambda=0.95\)），value head 直接挂 backbone（stop-grad，LR \(10^{-4}\) ≈ actor LR \(5\times10^{-6}\) 的 20×）。flow-matching 下的 log-prob：把 probability-flow ODE 转成 SDE，每个 Euler 去噪步变成显式 Gaussian → 解析 log-prob；默认随机选单个去噪步估计，只需 1 次额外 DiT forward。log-prob 与 advantage 都在 action-chunk 级（\(H=16\)，一个 chunk 一个 scalar reward/advantage）。128 并行 env，每 iteration 8 epochs × 128 steps → 8,192 transition chunks；rollout 温度 \(\tau=1.0\)，评测 \(\tau=0.6\)；client-server 解耦 rollout。
下游 manipulation chunk \(H=16\)，navigation waypoint horizon 8。SFT loss 权重：VL next-token 0.1，manipulation/navigation action 各 1.0。

4. 结果对比¶

4.1 仿真 Manipulation（specialists vs 单一 generalist）¶

Method	Type	LIBERO	RoboCasa-GR1	Simpler-WidowX	RoboTwin-Easy	RoboTwin-Hard
π0	Specialist	94.4	--	--	65.9	58.4
StarVLA-OFT	Specialist	96.6	48.8	64.6	50.4	--
GR00T N1.6	Specialist	97.2	49.9	63.2	47.6	--
π0.5	Specialist	97.6	37.0	46.9	82.7	76.8
ABot-M0	Specialist	98.6	58.3	--	86.0	85.0
Being-H0.5	Specialist	97.6	53.3	--	--	--
Qwen-VLA-Base	Generalist	90.8	40.4	64.3	64.3	66.4
Qwen-VLA-Instruct	Generalist	97.9	56.7	73.7	86.1	87.2

注：specialist 是每个 benchmark 单独 fine-tune 的；Qwen-VLA 是一次性多本体联合训练、靠 prompt 切换部署到全部平台。Instruct 在 Simpler-WidowX / RoboTwin-Easy / Hard 上超过所有 specialist，LIBERO/RoboCasa 紧随最强 specialist。Base→Instruct 增益：LIBERO +7.1、RoboCasa +16.3、Simpler +9.4、RoboTwin-Easy +21.8、Hard +20.8。

4.2 真机 ALOHA（双臂，预训练的价值）¶

In-domain（成功率 %）：

Model	Pick&Place	Table Clean	Bowl Stack	Bowl P&P	Towel Fold	Fine-grained	Avg
GR00T N1.6	30.8	38.5	53.8	19.2	19.2	10.3	28.6
π0.5	73.1	84.6	88.5	69.2	80.8	33.3	71.6
Qwen-VLA-aloha (w/o pretrain)	30.8	53.8	61.5	64.1	50.0	30.8	48.5
Qwen-VLA-aloha (w/ pretrain)	96.2	92.3	98.7	87.2	65.4	61.5	83.6

OOD（成功率 %）：

Model	Color	Instance	Position	Background	Instruction	Avg
GR00T N1.6	46.2	38.5	3.8	19.2	19.2	25.4
π0.5	57.7	61.5	19.2	26.9	42.3	41.5
Qwen-VLA-aloha (w/o pretrain)	42.3	30.8	34.6	30.8	42.3	36.2
Qwen-VLA-aloha (w/ pretrain)	88.5	76.9	53.8	80.8	84.6	76.9

同架构下，预训练把 in-domain 48.5→83.6、OOD 36.2→76.9，OOD 上比 π0.5 高 35.4pp。说明增益来自 Qwen-VLA-Base 预训练而非架构本身。

Qualitative OOD on ALOHA Figure 3：Qwen-VLA-Base 在 ALOHA 双臂上的零样本 OOD rollout——按颜色抓球（左上）、抓训练集外新物体并做组合式"清桌"（右上）、与完全未见物体交互（左下）、未见黄色背景下拔笔帽（右下）。这些行为主要靠混入的通用 VL 数据带来的物体词汇与背景多样性迁移而来。

4.3 Navigation（VLN-CE Val-Unseen）¶

Method	R2R OS↑	R2R SR↑	R2R SPL↑	RxR SR↑	RxR SPL↑
NaViD	49.2	41.9	36.5	45.7	38.2
Uni-NaVid	53.3	47.0	42.7	48.7	40.9
NaVILA	62.5	54.0	49.0	49.3	44.0
StreamVLN	64.2	56.9	51.9	52.9	46.0
Qwen-VLA-Base	61.7	53.8	49.4	55.1	45.8
Qwen-VLA-Instruct	69.0	57.5	51.2	59.6	47.8

4.4 OOD 静态 manipulation（SimplerEnv-OOD，仅在 Bridge pick-and-place 上 fine-tune）¶

Method	MoveAway	MoveRight	PlaceNear	PlaceRight	PutFront	StackYellow	Avg
π0.5	26.1	0.0	0.0	32.1	13.0	4.2	12.6
Qwen-VLA-Base	31.3	31.6	16.7	47.1	6.3	18.8	25.3
Qwen-VLA-Instruct	43.8	33.3	39.6	47.9	4.2	22.9	32.0

π0.5 在 MoveRight/PlaceNear 上完全失败（0%），Qwen-VLA 显著拉开位置泛化差距。

4.5 OOD 动态 manipulation（DOMINO，零样本）¶

Qwen-VLA-Instruct 取得最高 SR 26.6% / MS 39.5，零样本即超过专门 fine-tune 动态数据的 PUMA（17.2 / 35.0）9.4pp。仅用 current-frame 观测、无任何动态微调。

4.6 关键消融¶

T2A ablations Figure 4：T2A 三组关键消融。(a) 数据配比 + 预测模式——20% syn + 80% real 的 full-sequence 预测峰值 71.1%，chunk 预测与含图像都明显更差；(b) timestep 分布——T2A 用 Sigmoid-Normal、SFT 用 Beta 组合最优，反着换都掉点；(c) T2A 步数——2000 步即达峰，40000 步因过拟合 T2A 语料反而下滑。

T2A 设计（SFT 后在 Simpler-WidowX 的成功率 %）：

配置	成功率
T2A 纯 real 数据	51.04
T2A 纯 synthetic	64.06
T2A ~20% syn + 80% real，full-sequence	71.09
chunk 预测（10% syn）	60.42（比 full-seq 低 4.94pp）
chunk + 含图像（10% syn）	57.55（再 −2.87pp）
Beta@T2A（换掉 Sigmoid-Normal）	65.36（−5.73）
Sigmoid-Normal@SFT	62.76（−8.33）
Beta 两阶段都用	59.38
T2A 步数 2k / 4k / 10k / 40k	71.09 / 67.45 / 67.19 / 60.42（40k 过拟合）

结论：T2A 用 full-sequence、20% syn+80% real、Sigmoid-Normal \(p(\tau)\)、2000 步最优；图像必须在 T2A 完全屏蔽。

Post-training 累积效应：

Stage	Simpler	RoboCasa	RoboTwin-E	RoboTwin-H	LIBERO	SimplerOOD	DOMINO SR	DOMINO MS
CPT	64.3	40.4	64.3	66.4	90.8	25.3	21.1	37.4
+SFT	70.8	56.0	86.3	87.1	97.8	31.6	25.7	39.1
+RL	73.7	56.7	86.1	87.2	97.9	32.0	26.6	39.5

RL 仅在 SimplerEnv 收集 rollout，最大增益在 SimplerEnv 本身（+2.9pp），其余 benchmark 保持或小幅正迁移，无灾难性遗忘。

其它消融：VL 数据 co-training 在难任务上 +4.9pp（RoboCasa）/ +4.6pp（RoboTwin）；预训练 DiT 比 from-scratch 收敛更快峰值更高；投影头 Multi-MLP / Concat / Zero-Pad 差异 <1.2pp，选参数最省的 Zero-Padding；state conditioning（VLM prompt / DiT）最多只 +1.3pp，最终不用 state，只保留文本 prompt 作为唯一本体接口。

5. 引申问题 / 讨论¶

5.1 做得好的地方¶

统一 tensor 接口 + masking，而非统一物理语义空间。这是比"强行对齐所有本体动作"更聪明的折中：固定 \(K\) 通道 + 前 \(c\) 维有效 + per-channel mask，单套 DiT 参数吃下所有控制模式，padding 不污染梯度（两级平均保证每维等权）。配合 per-dataset quantile 归一化，既消除尺度差异又保留各源原生动作格式。
embodiment 用文本 prompt 编码 → 唯一接口。把"机器人是谁、几条臂、控制频率、horizon"全压进自然语言，使得跨本体不需要任何架构改动、部署到真机只换 prompt。这也是 RL 能零样本迁移到 OOD 环境的前提（prompt 不变 → 无分布漂移）。
compression 视角下的 T2A 阶段。把"语言→动作"看作结构化解压，先在无图像、无 backbone 干扰的条件下训出 language-indexed action prior，再把视觉 grounding 留给 CPT。这避开了冷启动时随机 DiT 梯度扰动预训练 backbone、且每步都白付图像编码成本的问题。消融充分（数据配比、full-seq vs chunk、有无图像、timestep 分布、步数）。
T2A 的 timestep 分布选择有物理直觉且被验证。无视觉条件时 backbone 给不了去噪引导，于是用 Sigmoid-Normal 把梯度推向中间噪声水平（信噪比最有信息）；有了 backbone 条件后 CPT/SFT 换回 Beta。这个"阶段相关 \(p(\tau)\)"是有解释力的设计，且消融显示乱换会掉 5–8pp。
flow-matching 下的 PPO log-prob 估计。把 probability-flow ODE 转 SDE 让每个去噪步变成显式 Gaussian，从而能算解析 log-prob；默认只采单步、只多一次 DiT forward。这是把 diffusion/flow policy 接进 on-policy RL 的工程关键，且 chunk 级 reward/advantage 与 decoder 输出粒度天然对齐。
RL 单环境训、跨环境测的实验设计。刻意只在 SimplerEnv 收 rollout，然后看 RoboCasa/RoboTwin/LIBERO/DOMINO 是否保持——这是对"RL 是否引入过拟合/遗忘"的诚实检验，结论是温和正迁移。

5.2 做得不够好的地方 / 值得质疑的地方¶

"单一 generalist 超过 specialist"的口径需要谨慎。Table（§4.1）里 specialist 各自 per-benchmark fine-tune，而 Qwen-VLA-Instruct 是经过 SFT + RL（在 SimplerEnv 上专门优化） 的。Simpler-WidowX 的 73.7% 恰恰是 RL 直接优化的环境，拿它去和"未做 RL 的 specialist"比并不完全对等。真正的同台是 Qwen-VLA-Base（generalist 无 RL），而 Base 在多数 benchmark 明显落后 specialist（LIBERO 90.8 / RoboCasa 40.4）。
RL 的"跨环境迁移"被叙述放大了。Table（§4.6）里除 SimplerEnv 本身（+2.9pp）外，RoboCasa +0.7、RoboTwin-Hard +0.1、LIBERO +0.1、SimplerOOD +0.4，全部在噪声量级。把这说成"task-success optimization 带来正迁移"过强；更准确的结论是"RL 在训练环境涨、在其它环境基本不变（没退化）"。
DOMINO 零样本 26.6% 超过 fine-tuned PUMA 的归因含糊。作者归功于"flow-matching 产生 coherent action chunk 减少 hesitation + 大规模预训练 prior"，但这是定性叙事，没有针对性消融（比如换成离散 token decoder、或去掉预训练比较）。动态操作零样本胜过专门微调的方法，是个很强的 claim，证据链偏弱。
VL co-training 的代价被淡化。Limitations 里一句"action 训练会 modestly regress 部分纯 VL 和 navigation 评测"，但正文没给 backbone 在标准 VL benchmark 上训练前后的对比数字。既然卖点之一是"保留 Qwen3.5 的感知推理能力"，缺这组数据是明显空白。
proprietary 数据 + 自研仿真占比巨大但不可复现。in-house 真机 >1,000h（~20%）、自研 RoboInF 仿真 359,848 条 + language-action 7.2M 条，合计是预训练主力之一，但 RoboInF 细节"见 blog post"，无法独立验证。74.2% manipulation 里多少来自不可获取的私有源没有拆清。
T2A 主要靠"零物理零渲染"的运动规划合成数据（7.2M 条纯运动学、cuRobo 规划、无接触动力学）。这种 kinematically idealised 轨迹建立的 action prior 是否会让模型对接触/力控任务有系统性偏差？消融里"纯 syn 64% vs 20%syn+80%real 71%"已暗示 real 数据在锚定物理动力学上不可或缺，但最终 prior 仍以合成为主体，风险未被讨论。
"current-frame only"是架构假设而非优势。模型基本基于单帧/当前观测预测动作 chunk（state-conditioning 消融也据此论证"相对位移预测不需要显式 state"）。这等于假设动作只依赖当前帧——对需要历史、力觉、接触状态的任务（精细插拔、可变形物体、长程依赖）是硬限制。Towel Folding（真机 65.4 落后 π0.5 的 80.8）可能正是这个短板的体现。
egocentric 数据 6% 的实际贡献没有单独消融。论文花大篇幅讲 eigengrasps、MANO、四个 ego 数据集，但没有"去掉 ego 数据"的对照，无法判断这 6% 到底带来多少下游收益，还是主要为了叙事完整性。
navigation 联合训练实为轻微拖累。Limitations 自承 action 训练会 regress navigation；§4.3 里 Qwen-VLA-Instruct 虽在多数指标领先，但 nDTW（57.1）低于 NaVILA（58.8）和 StreamVLN（61.9），说明轨迹保真度上联合训练有代价。
评测仍以短程、benchmark 为主。作者自己在 Limitations 承认 long-horizon、failure-prone 的真实部署是 open challenge。当前所有数字都来自相对受控的 suite，"通才"在长时序鲁棒性上的真实水平未知。

5.3 值得继续探讨的方向¶

co-prediction 未来视觉状态 → world model：作者在 §2.1 与 Conclusion 明确点到"output 轴上 co-predict future visual states 即可统一 action generation 与 world modeling"。这是把本文从"action 接口"推向"world model + action"的自然下一步（对照站内 Pelican-Unified 的联合 video+action DiT）。
用 latent-action IDM 替换/补充手工 action 表示：egocentric 现在靠 MANO + PCA eigengrasps 显式编码，能否像 LAPO/LA-Pose 那样用自监督 latent action 统一人/机器人动作空间，减少对显式 pose 标注的依赖？
接触/力觉信号注入：state-conditioning 消融结论是"视觉够用所以不要 state"，但那是在 vision 可见末端的任务上得出的；引入 tactile/force/proprioception 对插拔、可变形物体是否能突破 current-frame 假设？
RL 的环境多样性：当前 RL 只在 SimplerEnv，跨环境基本无增益。把 rollout 扩到多环境（RoboTwin/RoboCasa）后，task-success 优化能否带来真正的跨域提升而非仅训练环境内涨？
VL 能力退化的定量刻画与缓解：给出 backbone 在标准 VL benchmark 上 co-training 前后曲线，并尝试更好的 objective balancing / 数据课程 / 模块化专门化。
长时序 + episodic memory：把 \(o_t\) 扩展为带历史/记忆的上下文，验证统一框架在真正长程任务上的失败恢复与重规划能力。

参考资源¶

论文 PDF: paper.pdf
LaTeX 源码: source/
关键 baseline / 相关论文: π0 / π0.5（black2024pi0, black2025pi05）、GR00T N1.6（nvidia2025gr00t）、ABot-M0（yang2026abotm0，本站有笔记）、Being-H0.5、StarVLA-OFT、StreamVLN / NaVILA（navigation）、PUMA / DOMINO（fang2026towards，动态操作）、VITRA（li2025vitra，ego 数据）、RLinf（yu2025rlinf，RL 框架）