π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities¶

论文阅读笔记 — 用于后续讨论的概览

1. 基础信息¶

题目：π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
作者机构：Physical Intelligence（团队作者，Bo Ai、Kevin Black、Danny Driess、Chelsea Finn、Karol Hausman、Sergey Levine、Karl Pertsch、Lucy Xiaoyang Shi 等）
arXiv 编号 / 时间：2604.15483，2026-04
项目主页：https://pi.website/pi07
关键词：steerable generalist robot foundation model、VLA、flow matching、diverse prompt conditioning（subtask 指令 + subgoal images + episode metadata）、emergent capabilities（compositional / instruction / cross-embodiment / long-horizon generalization）、distillation（把 RL specialist 蒸馏进通用模型）、coaching（语言教学）、MEM history conditioning

teaser Figure 1：π₀.₇ 是一个可 steer 的通用机器人 foundation model，跨多任务、多环境、多机器人执行灵巧任务。核心 takeaway：训练时给每条数据加上丰富的多模态 prompt（不只是"做什么"的 task 描述，还包括详细 language、生成式 subgoal images、episode metadata），从而既能利用极其多样（含失败、自主、非机器人）的数据，又能在推理时把这些 skill 以新方式组合起来解决新任务。

2. 文章介绍¶

2.1 解决的领域和问题 (steerable generalist robotic foundation model)¶

机器人 foundation model（VLA）近年在规模与能力上进步显著，但与 LLM 不同，它们的 compositional generalization 一直缺位：先前 VLA 不仅难以解决全新任务，甚至常常无法在不做 task-specific fine-tuning 的情况下流畅执行所有训练过的指令。本文要解决两个问题：

如何从大规模、异质、混质量的数据中学习（含 demonstration、失败/低质量数据、prior model 自主 rollout、egocentric 人类视频、web 多模态数据），而不被"平均不同模式"拖垮。
如何让一个单一通用模型在推理时被精确 steer——通过 prompt 指定"怎么做"（速度、质量、策略、视觉目标），从而 out-of-the-box 匹配为单任务专门 fine-tune（甚至 RL post-train）的 specialist。

2.2 Motivation (为什么需要 runtime steerability + 通用 foundation model 的 emergent 能力)¶

数据多样性 vs 朴素训练的矛盾：直接把高质量演示 + 失败 + 自主数据混在一起训练，模型会把不同模式 average 起来，产出次优行为。需要一种机制让模型"知道"每条数据的质量/策略，从而在推理时只被引导到高质量模式。
借鉴 prompt expansion：图像/视频生成领域用 prompt expansion 提升生成质量。机器人里仅靠"更详细的文字 caption"不够——决定成功与熟练度的细节往往很微妙（如整段 episode 的整体质量），或难以用语言表达（如一件叠得干净的 T 恤的具体外观）。因此除详细文字外，还要加 episode metadata 和 subgoal images。
emergent 能力是通用性的基石：希望像 LLM 那样，通过 prompt/coaching 而非为每个新任务采集动作数据，就能让机器人执行新任务（instruction generalization、cross-embodiment、compositional、long-horizon）。

2.3 之前工作的问题¶

方法 / 路线	主要缺陷
π₀ / π₀-FAST	仅用短文字任务描述作为 context；最好性能仍需 task-specific fine-tune；语言跟随弱
π₀.₅	引入了 high-level subtask 文字，但仍难处理开放词汇 / OOD 指令；跨较大 embodiment gap 退化明显（如 UR5e↔小型双臂）
π₀.₆ / π*₀.₆ (RL)	π₀.₆ 用 RL 把单个灵巧任务做到专家级，但是 per-task specialist*，不通用；通用 π₀.₆ 本身达不到 specialist 性能
其它 generalist VLA（RT-2、OpenVLA、Octo 等）	语义泛化有（认新标签的物体），但执行新任务的 compositional generalization 基本缺位
固定/不可 steer 的策略	在有 dataset bias 的场景里会无视语言、盲目复制数据中的行为；无法被 runtime 引导到不同策略/质量
朴素混质量训练	把高低质量、不同策略数据 average，性能反而随数据量下降

2.4 论文解决方案（一句话）¶

在 π₀.₆-MEM 的 VLA 架构上，用 diverse context conditioning（detailed language + episode metadata + 生成式 subgoal images，且训练时各组件随机 dropout） 把大规模混质量/异质数据"消歧"成可控的训练信号，得到一个推理时可被 prompt/coaching 精确 steer、并涌现出 compositional / instruction / cross-embodiment / long-horizon 泛化能力的通用机器人 foundation model π₀.₇。

2.5 与前序工作的关系 (build on π 系列)¶

Backbone：从 Gemma3 4B VLM（含 400M 视觉编码器）初始化。
架构基座：建立在 π₀.₆ 的 VLA 架构 + MEM 记忆系统之上（即 π₀.₆-MEM），扩展多模态 context conditioning。
训练配方：复用 Knowledge Insulation (KI)——VLM backbone 用 FAST 离散 token 做交叉熵监督，action expert 通过 flow matching 学连续动作，且 action expert 的梯度不回流到 backbone。
subtask 文字：沿用 π₀.₅ 的 high-level/intermediate 语义子任务文字。
subgoal image 生成：world model 沿 SuSIE 思路，从 BAGEL（14B mixture-of-transformers 图像生成/编辑模型）初始化。
数据来源之一：把 π₀.₆ 在 RL 训练中采集的自主数据作为额外样本，等价于把 RL specialist 的行为 distill* 进通用模型。
推理平滑：采用 real-time action chunking (RTC) 的训练时版本。

3. 方法介绍¶

architecture Figure 2：架构总览。π₀.₇ 是 5B 参数 VLA = 4B VLM backbone + MEM 风格视频 history 编码器 + 860M action expert。Context 含语言指令、episode metadata（数据质量/策略）、subgoal images 等多模态。运行时，语言指令由同架构的 high-level 语义策略产生，subgoal images 由基于 BAGEL 的轻量 world model 产生。

3.1 模型架构 (VLA + action expert, attention mask, history/memory conditioning)¶

总规模 ~5B：4B Gemma3 VLM backbone + 860M flow matching action expert。
输入：最多 4 路相机（前视、两个腕部、可选后视），每路最多 6 帧 history；最多 3 张 subgoal images（不含后视）。所有图像 resize 到 448×448。history 帧经 MEM 视频编码器做时间+空间压缩，压成与单帧相同的 token 数；subgoal images 走同一编码器。
history / memory conditioning：history 帧按 1 秒 stride 采样，整段 history 以概率 0.3 整体 dropout；后视图以概率 0.3 dropout。本体状态 \(\bq_t\)（含历史状态）用线性投影嵌入 backbone（不再像 π₀.₆ 用离散文字 token），每个历史状态是一个 token，帧被丢则状态 token 也被 mask。
attention mask（block-causal）：observation token 与 subgoal image token 内部双向注意；goal-image token 可额外注意 observation；后续文字 token 用 causal 注意；训练期的 FAST token 与 flow action 互不注意。推理做 CFG 时把正/负样本打包进同一序列构成"attention tree"两个分支（互不注意）以高效推理。
action expert：860M transformer，flow matching，用 adaptive RMSNorm 注入时间步。固定 50 个 action token = 50 步 action chunk，50 个 token 双向注意彼此并注意 backbone。
RTC：训练时模拟 0–12 步延迟（50Hz 机器人上对应最高 240ms 推理延迟）以生成平滑轨迹。

3.2 Steerability 机制 (coaching / prompts / instruction following 在推理时如何起作用)¶

π₀.₇ 的"可 steer"来自训练时把 4 类 prompt 组件喂进 context \(\mathcal{C}_t\)，并对每个组件随机 dropout，使推理时可任意取子集：

Subtask 指令 \(\hat{\ell}_t\)（高层语义子任务，如"打开冰箱门"）：可由学到的 high-level 策略给出，也可由人类实时给出 = verbal coaching。模型被训练成跟随多样语言指令，故能在全新任务上跟随人的现场分步指令。
Subgoal images：用轻量 world model \(g_\psi\)（BAGEL 初始化）根据当前观测 + subtask 指令生成"近未来该长什么样"的多视角目标图，比纯语言更能消歧目标，提升语言跟随与泛化。生成式 subgoal 把 web-scale 语义/物理知识引入策略。
Episode metadata：overall speed（按 500 步分箱的 episode 长度）、overall quality（1–5 分）、mistake（是否犯错的段标注）。运行时可指令模型"高速、最高质量、无错误"地执行。
Control mode：文字标识 joint / ee，运行时按任务选关节空间或末端执行器控制（不做 dropout）。

完整 prompt 示例：

<Multi-view observation><Multi-view subgoals> Task: peel vegetables.
Subtask: pick up the peeler. Speed: 8000. Quality: 5. Mistake: false.
Control Mode: joint. <Proprioception>

Coaching → autonomous 闭环：人用语言一步步教模型完成全新长程任务后，把这些 coaching episode 拿来 fine-tune 一个 high-level 策略（输入观测 + 任务规格 + 历史 subtask，输出下一条 subtask 指令），即可让机器人 不采集任何新的低层/teleoperation 数据 就自主完成该任务。

3.3 训练配方与数据 (operator experience hours scaling, cross-embodiment)¶

数据构成：多机器人（静态/移动、单臂/双臂）多环境（实验室、类家庭、in-the-wild 真实家庭）demonstration；大量策略评测产生的自主数据；策略 rollout 中的人类干预；开源机器人数据集；egocentric 人类视频；web 非机器人多模态数据（物体定位/属性预测、VQA、纯文本）；视频字幕任务。
重用 suboptimal 数据：显著区别于经典 VLA pipeline——大量使用低质量演示（失败或含大量错误的成功）和 prior model 评测时采的自主数据，包括 π₀.₆ 在 RL 训练中产生的数据 → 形成对 RL specialist 的"distillation"。注：明确排除*了任何 generalization 评测任务（含本文 §实验中的）中采的自主数据，避免泄漏。
subgoal 训练采样：仅 25% 的 batch 样本加 subgoal images（加了后训练显著加速，因动作预测退化成"inverse dynamics"问题）；加了 subgoal 的样本里 30% 概率再丢掉 subtask 文字；real subgoal 中 25% 取段末帧、75% 在未来 0–4 秒内均匀采；同时大量用 world model 生成的图替代真实未来帧以弥合 train-test 差异。
metadata dropout：整体 15% 丢弃，三个分量各额外 5% 概率单独丢。
cross-embodiment：训练数据跨多种臂；测试时把在小型静态双臂上采的灵巧任务（如叠衣）零样本迁移到形态/重量差异巨大的 UR5e 双臂平台（UR5e 20Hz，其余 50Hz）。

3.4 Distillation 加速推理（及 distillation 的两种含义）¶

注意本文"distillation"有两层含义，需区分：

能力蒸馏（主线，distillation_results / distillation_ablations 图）：通过把 RL/SFT specialist 的评测自主数据 + episode metadata 一起喂入，通用 π₀.₇ 继承（distill）这些 specialist 的行为，从而 out-of-the-box 匹配甚至超过为单任务专门 post-train 的策略。这不是模型压缩，而是"行为蒸馏到一个通用策略"。
推理速度优化（见 Implementation Details）：通过 RTC 训练时版本、注意力/量化优化把延迟压到可部署水平。

消融（distillation_ablations，见 §4）：去掉 metadata（no metadata）或去掉评测自主数据（no eval data）都会全面变差，尤以 throughput 差距最大——说明"用 metadata 消歧的混质量评测数据"是匹配 specialist 的关键。

3.x Implementation Details (参数量, 控制频率, 推理延迟)¶

参数量：总 ~5B = 4B VLM backbone（含 400M 视觉编码器）+ 860M action expert；world model 基于 BAGEL 14B（7B LLM backbone + 7B 生成 backbone）。
控制频率：UR5e 20Hz，其余机器人 50Hz；动作经简单 PD 控制器执行，末端执行器命令用数值 IK 转关节目标。
denoising / 执行：5 步 denoising 生成 50 步 action chunk，每次执行 \(\hat H \in \{15,25\}\) 步。
CFG：因各组件训练时 dropout，可对 metadata 做 classifier-free guidance（\(\beta \in \{1.3,1.7,2.2\}\)）以激发灵巧任务的强性能。
推理延迟：最小变体在单卡 H100 上 3 路相机 + 5 步 denoising + 训练时 RTC 仅 38ms；开启 MEM 视觉编码器 + subgoal images 后最坏 127ms。
world model 延迟：14B、序列近 10000 token，用 4×H100 4-way 张量并行 + 8-bit 量化 + 改版 SageAttention，25 步 denoising（含 text+image CFG）约 1.25s，运行时异步（VLA 不等 world model）。
subgoal 刷新：语义意图变化（新 \(\hat\ell_t\)）或距上次 \(\Delta=4\) 秒，取先发生者；subgoal 与 subtask 生成在独立线程，VLA 始终用最新可用结果（异步推理）。

4. 结果对比¶

4.1 Out-of-the-box 灵巧性 / distillation（vs RL & SFT specialist）¶

distillation Figure 3：out-of-the-box 灵巧性。上排为 π₀.₆ 的任务（espresso、box building、laundry folding），报 success rate 与归一化 throughput（相对 specialist，原始单位 successes/hour）；下排为其它灵巧任务报 task progress。同一个 π₀.₇ 模型直接 out-of-the-box 匹配 π₀.₆ / π₀.₅ 的 task-specific specialist，并在多样叠衣和 box building 上 throughput 超过 RL specialist。

关键结论：单一通用 π₀.₇ ≈ 各任务的 RL/SFT specialist，部分任务（laundry、box building）throughput 反超。

4.2 Distillation ablation¶

π₀.₇ > π₀.₇ (no metadata) 且 > π₀.₇ (no eval data)，全任务领先，throughput 差距最大。佐证：评测自主数据 + metadata 消歧是必要条件。

4.3 Memory 任务¶

单个 out-of-the-box π₀.₇ 在需要记忆的任务上 相当或优于 MEM 论文里为各任务 fine-tune 的 π₀.₆+memory specialist。

4.4 Instruction following（vs π₀.₅ / π₀.₆）¶

instruction_following Figure 4：在 14 个 instruction following 场景（每个含 3–6 条开放式指令）、跨 4 个未见厨房 + 2 个未见卧室上评测，报正确跟随指令的百分比。π₀.₇ 全面、显著优于 π₀.₅ 和 π₀.₆，绝对成功率高。

复杂指代指令（instruction_generalization）：standard 指令各模型都行；complex 指令（"拿我喝汤用的东西""拿最大盘子上的水果"）π₀.₇ 明显更强，加 subgoal images（π₀.₇ (GC)）再提升。
打破数据偏置（compositional_generalization）：Reverse Bussing / Reverse Fridge-to-Microwave 这类与数据模式相反的指令，先前模型盲目复制偏置行为而失败，π₀.₇ 因语言跟随强能打破偏置；Reverse Fridge-to-Microwave 上 subgoal images 是成功的关键。

4.5 Cross-embodiment transfer¶

cross_embodiment Figure 5：跨 embodiment 迁移。简单重排任务各模型都能零样本迁移；embodiment gap 增大时 π₀.₅ 退化、π₀.₆ 仍可，最大 gap（小型双臂→UR5e 的 Shirt Bagging、叠衣/叠毛巾）π₀.₇ 显著领先，加 world model subgoal（GC）进一步提升，task progress 匹配最有经验人类遥操作者首次尝试的"零样本"表现。

human_vs_pi07 Figure 6：UR5e 叠衣任务上 π₀.₇ (GC) vs 人类操作者的定量对比，性能相当。

人类对照研究：10 名顶尖（全平台经验前 2%，平均 ~375 小时）操作者，均无 UR5e 叠衣经验（人和策略都"零样本"）。
人类：task progress 90.9%，success rate 80.6%。
π₀.₇：task progress 85.6%，success rate 80%。
结论：与专家操作者相当。实践意义——灵巧技能可从"易遥操作的低成本平台"迁移到"难采集数据的高负载工业臂"。
涌现策略（human_vs_policy）：迁移不是简单复制源策略——源机器人用双臂撑袋/倾斜抓取，UR5e 上 π₀.₇ 自发改用单臂 pick-and-place / 垂直抓取，适配目标形态。

4.6 Compositional task generalization & coaching¶

Figure 7：用 coaching 获得新的自主能力。把若干未见任务的 coaching episode 拿来训练 high-level 策略自动 prompt π₀.₇，得到的 π₀.₇ (autonomous) 在 5 个任务上接近 π₀.₇ (coaching) 的表现，全程不采集任何额外 teleoperation 或低层动作数据。

long_horizon Figure 8：用语言 coaching 完成新长程任务（Loading/Unloading Air Fryer、Toasting a Bagel）。这些任务无任何 action-level 训练数据，π₀.₇ 被 coach 的效果远好于先前模型（后者语言跟随弱、几乎失败），加生成式 subgoal（GC）更佳。

短程新任务 out-of-the-box：擦耳机、转风扇、按法压壶、舀米进电饭煲等无专门数据的任务可直接做，语言 vs 图像目标条件效果相当。

4.7 Scaling / mixed-quality 数据消融¶

混质量数据：把叠衣数据按质量+速度分 top30/50/80/100% 4 桶，训 with/without metadata 共 8 个模型。without metadata 随数据增多反而变差；with metadata 随数据增多持续提升（即便平均质量下降）。→ diverse prompting 让模型设计更 scalable。
任务多样性：去掉任务多样性最高的 20% 数据（w/o most diverse 20%）比去掉随机 20%（w/o random 20%）显著更差 → π₀.₇ 能把高任务多样性数据转化为 compositional 泛化性能。
总体泛化幅度：seen 任务成功率常 >90%；unseen 任务或 unseen 任务-机器人组合落在 60–80%。

5. 引申问题 / 讨论¶

5.1 做得好的地方¶

方法论而非新架构的贡献：作者明确说不主张新架构，而是"用多样 prompt 把异质/混质量数据变成可用训练信号"的方法论 + 大量实证，这一定位诚实且可迁移。
把失败/低质量/自主数据变废为宝：metadata 消歧 + 评测数据复用，既扩大数据又不伤性能，混质量 scaling 曲线（with vs without metadata 分叉）是很有说服力的证据。
runtime steerability 的工程闭环：dropout 训练 → 任意子集 prompt → CFG → coaching → 用 coaching 数据训 high-level 策略自主化，形成"无需新动作数据即可教新任务"的完整链路。
跨 embodiment 的人类对照：把策略与顶尖操作者放在同一"零样本"口径比较，且公开了 protocol（无热身、相同初始构型/时限/评分），是机器人论文里少见的硬对照。
推理延迟数据透明：38ms / 127ms / world model 1.25s 等数字给得很具体，便于评估可部署性。

5.2 做得不够好的地方 / 值得质疑的地方¶

"emergent" 是否名副实？ 作者自己在 Discussion 里承认：数据集太大太杂，"无法确定哪些任务真正 seen / unseen"，模型可能只是把别处出现过的 skill"remix"。把这种 remix 直接等同于 compositional generalization、并冠以"emergent"，更像是规模/数据多样性带来的连续效应，而非 LLM 意义上的相变式涌现。标题里的"Emergent Capabilities"有营销色彩。
held-out 严谨性存疑：仅排除了"刻意为该任务采集"的数据，但相似 appliance/skill 在人类视频、外部数据、其它任务的副产物里可能大量存在。没有量化"测试指令/任务与训练分布的距离"，零样本声明缺乏可证伪的界定。
steerability 评测主观性：episode quality 是人工 1–5 主观打分、mistake 是"粗标"，coaching 由人现场给指令——这些都引入人类先验与实验者自由度。coaching 成功多大程度归功于模型、多大程度归功于会"恰好分解任务"的人，难以分离。
human-vs-policy 比较口径偏向策略：人类操作者被要求"零样本、无热身、首次尝试 UR5e"，这是人类的最不利设定（人稍加练习会大幅提升），而策略已在海量近似数据上训练过。"comparable to experts"在这种口径下证明力有限；且仅 30 trials（10 人 ×3），且只 1 个任务。
闭源、不可复现：模型、数据、operator hours、world model 均不公开，5B+14B 规模 + H100 集群 + 自有机器人车队，外部团队无法复现或独立验证任何数字。
distillation 损失多少能力未量化：声称 out-of-the-box 匹配 RL specialist，但 distillation_results 多以"normalized throughput / task progress"呈现而非绝对 success；通用模型在每个单任务上相对 specialist 的真实损失、以及哪些任务匹配不上，缺乏全面披露。
operator experience hours 不可获取且定义模糊："top 2%""~375 小时"无外部基准，operator_experience_hours 图只是内部分布；这条"人类基线"本质上依赖私有劳动力,无法被第三方校准。
泛化成功率仍偏低：unseen 任务/组合只有 60–80%，对真实部署（尤其多阶段长程任务的逐阶段乘性失败）而言可靠性不足，论文对长程失败模式的分析较少。
大量结果以图（bar/曲线）而非数值表呈现：除人类研究外，正文几乎没有可逐项核对的数值表，难以精确比较 π₀.₅/π₀.₆/π₀.₇ 各任务差距。
world model 依赖与失败耦合：多个关键结论（Reverse Fridge-to-Microwave、复杂指代、叠衣迁移）依赖 14B world model 生成 subgoal；其 1.25s 延迟 + 8-bit 量化下生成图质量/幻觉对策略的影响、以及 world model 失败时的退化行为未充分评估。

5.3 值得继续探讨的方向¶

利用 steerability 做在线适应：作者提出的方向——用更细 coaching 或自主 RL 在测试任务上高效学习，把 60–80% 的零样本成功率往上拉。
量化"novelty"：发展可证伪的指标衡量测试任务相对训练分布的真实距离，为 compositional/emergent 声明提供严谨界定。
解耦 coaching 中的人类贡献：设计实验区分"模型可被任意分解指令引导"与"人恰好给了好分解"。
subgoal world model 的轻量化：把 1.25s 的生成延迟压低、或蒸馏成更小模型，使 GC 模式可在更高频机器人上实时运行。
长程任务可靠性：研究多阶段任务的乘性失败与恢复机制（错误检测、回退、重规划）。
end-effector vs joint 控制：附录显示先前模型上 EE 控制无明显增益，但在更大 embodiment gap 或 contact-rich 任务上是否值得重新评估。

参考资源¶

论文 PDF: paper.pdf
LaTeX 源码: source/
关键 baseline / 相关论文：
π₀ (Black et al., 2024) — flow matching VLA 基础
π₀.₅ (Black et al., 2025) — high-level subtask 文字、层次化
π₀.₆ / π₀.₆-MEM — 本文 VLA 架构 + MEM 记忆系统的直接前身
π*₀.₆ (RL post-trained specialist) — distillation 的能力来源与对照
FAST (Pertsch et al., 2025) — backbone 的离散 action token 监督
MEM (Torne et al., 2026) — history/记忆视觉编码器
BAGEL (Deng et al., 2025) — world model（subgoal 生成）初始化
SuSIE (Black et al., 2023) — subgoal image 条件思路
RTC (Black et al., 2025) — real-time action chunking