机器人世界模型的闭环底图：long-horizon 论文都在改哪个零件

June 2026

long-horizon world model 的论文表面上很分散：latent dynamics、object slots、event verifier、memory、JEPA、video foundation model。把它们放回同一张图——机器人用一个学出来的想象器在脑子里选动作的闭环——就会发现，每篇都在改这张图的某一个零件。这篇用这张底图当轴，把近半年的前沿工作挂回各自的位置。

interactive

想要可搜索、可按失败模式一键筛选的全量 142 篇速查版，用同一张底图组织，适合检索与一览；这篇散文则适合从头读懂每个零件。

先把这张图画清楚

用一个具体任务贯穿全程：机械臂去抓桌上的杯子，放进柜子里。

机器人此刻看到一张图，这是它的当前状态 s_t。它要决定手怎么动，办法是先在脑子里试、再动真的。它脑子里有一个 world model：给它「现在长这样 + 我打算这么动」，它能想象「下一刻会变成什么样」。这个想象器是学出来的，所以会犯错。

机器人在脑子里试很多套动作方案，每套叫一个 candidate action sequence。对每一套，用 world model 一步一步往后想象：现在 → 下一刻 → 再下一刻，这条想象出来的未来序列就是 rollout。往后想象到第几步停，那个步数就是 horizon；固定 horizon 指不管什么情况都想象固定的 H 步。

每条想象出来的未来都要打分：这条路最后能不能把杯子放进柜子。打分用 reward 加 value。value 是在想象的终点之后，估计「接下来还能拿多少分」——因为只想象了有限几步，终点之后的好坏没法继续想象，得靠一个 value 函数补上。

终点怎么跟 value 接上，是这张图的一个关键细节。value 本身也是学出来的，用 TD（时序差分）训练：让「这一步的 value」逼近「这一步的 reward 加上下一步的 value」，一环扣一环，把长期回报回灌到短视界的终点。TD-MPC 就是这么把「短想象 + 长期价值」接起来：latent dynamics 只向前 rollout 几步，terminal value 估计更远的未来。

选分最高那套，只执行第一步，然后重新看一眼真实世界（reobserve），整个循环再来一遍。这个「想象 → 打分 → 选 → 走一步 → 再看」的搜索器，整体叫 planner / MPC。planner 就是那个在脑子里搜动作的东西。

这张闭环图是全文的轴。world model 在 rollout 处反复被 planner 查询；虚线是执行一步后回到真实观测的 reobserve。

误差本身不可怕，可怕的是误差改变了决策

world model 是学出来的，想象越远、错得越多，误差一步步累积。但不同处境下，能安全想象的步数并不一样。手在空中朝杯子飞（free space），动力学平滑，模型想得远也准；手指碰到杯子开始抓（in-contact），力、摩擦、滑动一瞬间全变，模型最容易想错；杯子被柜门挡住（occlusion），当前这张图看不见杯子，模型得靠记忆；从「抓」切到「放」（subtask transition），还得判断阶段对不对。

这里要分清两种东西。普通预测误差是模型想象的未来和真实不一样：想象杯子在左，真实在右。horizon failure 是这个错误已经害 planner 选错了动作：模型想象「方案 A 能成功」，planner 信了选了 A，真机一执行 A 失败。要害在于——误差本身不可怕，可怕的是误差改变了决策。下面所有的零件，归根结底都在防这一件事。

七个零件，和它们各自的前沿

把这条闭环拆开，每个零件都能单独换、单独改。下面七节，每节先说这个零件是什么、它在哪失败，再把近半年（2026 上半年）顶级机构的工作挂上去；机构与时间均按 arXiv 与官方页核对。这是一张阅读地图，不是逐篇精读的定论：表里多数还在初读层，强结论需要回到原文核对。

① 用什么表示世界

rollout 在某个状态空间里进行：像素、物体块（object slots）、3D 点、或压缩的 latent。表示选错，后面全错——像素逼真但任务相关的状态丢了，或 latent 漂移到无意义的区域。这一年的主线是「让 latent 真的对应世界的自由度」：JEPA 把表示学得更稳、object-centric 把状态拆成持久的物体。

论文	机构 · 时间	它改这个零件的什么
Latent Particle World Models	CMU (Pathak/Held) · Technion · 2026-03 · ICLR Oral	纯视频自监督学出物体中心的 latent particle（关键点/框/掩码），用 per-particle latent action 建模随机多物体动态。
3D-DLP	CMU (Pathak/Held) · 2026-06 · ICML	把 RGB-D 场景分解成一组 3D latent particle，补回 2D slot 做不到的遮挡恢复与精确几何。
Physical Object Understanding (Physically Controllable WM)	Stanford NeuroAI (Yamins) · 2026-05 · CVPR Highlight	概率自回归世界模型从原始视频推断分布式状态，靠多样未来间的运动相关性发现物体与可动部件，再在 3D 上操作。
V-JEPA 2.1	Meta FAIR (LeCun) · 2026-03	dense predictive loss 让视频自监督学到空间结构化、时序一致的密集 latent 特征，直接提升 action-conditioned 世界模型的 rollout 质量。
LeWorldModel (LeWM)	Mila · NYU (LeCun) · 2026-03	仅用两项 loss 就能从原始像素端到端稳定训练 JEPA 世界模型，~15M 参数单卡可训，latent 可线性探出物理量。
When Does LeJEPA Learn a World Model?	NYU (LeCun) · Brown · 2026-05	理论证明 LeJEPA 的最优 encoder 能从非线性观测线性恢复世界隐变量，为「表示是否真对应世界自由度」给地基。
Slot-MPC	学术线 · 2026	用物体中心 slot 做预测控制，使长程规划获得物体持久性与组合性。
PointWorld	学术线 · 2026	用 3D point-flow 取代像素未来，专攻接触/几何预测，可接入 MPC。

② 哪些过去要记住

当前一帧看不到的事实——被遮挡的物体、早先发生的事件、已数过的个数——会让只看当前帧的策略失败。这个零件管「该往记忆里写什么」：不是把所有历史都塞进上下文，而是选关键时刻写入。

论文	机构 · 时间	它改这个零件的什么
MemoryWAM	CUHK · Tsinghua · ZJU · 2026-06	world-action 模型用混合记忆（近期帧 + 事件边界锚点帧 + 压缩 gist），在非马尔可夫长任务里既保住历史又压低延迟/显存。
Mem-World	学术线 · 2026	几何索引的视觉记忆，让 rollout 在遮挡与腕部相机移动下仍保持物体持久性。
MEM (Multi-Scale Embodied Memory)	Physical Intelligence · Berkeley/Stanford 等 · 2026-03	短期视觉记忆 + 长期语言记忆，让机器人在数十分钟任务里保住任务相关状态。
KEMO · EventVLA	学术线 · 2026	事件驱动的关键帧记忆：在任务状态发生变化时才写入，避免遮挡/不可观测线索丢失。
World-Ego Modeling	多机构 · 2026-05	把持久的世界演化与机器人自身的 ego 运动分开，避免相机运动污染世界状态。

③ 动作如何改变世界

这是 transition function：给状态和动作，预测下一刻。长任务里最难的是接触——抓、推、插、滑、落——动力学模式在接触瞬间离散切换；一个被平均过的 monolithic latent dynamics 会把这些切换抹平，错误沿 rollout 累积。

论文	机构 · 时间	它改这个零件的什么
PRISM-WM	BIT · PKU · BIGAI · 2026-05	用 context-aware MoE 专家 + latent 正交化替代 monolithic 动力学，直接针对接触/模式边界被平均导致的长程漂移。
DreamDojo	NVIDIA GEAR · Berkeley (Malik/Abbeel) 等 · 2026-02 · ICML	44k 小时人类视频预训练的通用世界模型，蒸馏到实时 10.81 FPS、>1 分钟稳定自回归 rollout，支持遥操/策略评估/规划。
LingBot-VA (Causal World Modeling)	蚂蚁 Ant Group / 灵波 · 2026-01 · RSS	自回归扩散把视频 token 与动作 token 交错进共享注意力，联合学帧预测与动作执行，闭环 rollout 用真实观测反馈抑制漂移。
Contact-Rich SE(2) Global Planning	RAI Institute · CMU · MIT (Tedrake 组) · 2026-01	把接触丰富的 SE(2) 操作建成「互可达集图」，离线枚举可达朝向、在线拼接局部计划，从可行性升到近似全局最优。
IMPASTO	Stanford · UT Austin · Berkeley · Columbia · 2026-03 · ICRA	自博弈学到可微像素动态模型 f(I,u)，软毛刷 + 力控接触下用 receding-horizon MPC 规划多笔轨迹（机器人油画重现）。

④ 任务到底成没成

想象的画面可以看着完全对，但关键谓词其实没成立——杯子并没有真进柜子。这一年最清楚的趋势之一，就是从「画面合理」转向「事件/进度是真的」：用 event、predicate、reward model 或 verifier 检查任务有没有成，而不只看像素或 latent 距离。

论文	机构 · 时间	它改这个零件的什么
EV-WM (Event-Verified WM)	碧桂园服务 AI Lab · 复旦 · 2026-06	把 rollout 解码成结构化 event state，用任务进度/语义一致/可行性/不确定性给候选打分、门控规划——画面对但事件错正是它的核心论点。
World Action Verifier	Stanford · DeepMind · CMU · Harvard · 2026-04	把动作条件预测拆成「状态合理性 + 动作可达性」两路可验证因子，用 cycle-consistency 让世界模型对自己的 rollout 谓词式自检自纠。
CoVer (Scaling Verification > Policy)	Stanford (Finn/Pavone) · 2026-02 · CVPR-W Best Paper Finalist	测试时对比验证器给「改写指令 × 动作候选」打分，验证指令-动作对齐并选最佳，证明扩验证比扩策略更有效。
RoboReward	Stanford · Berkeley BAIR (Levine) · 2026-01	通用 VL 奖励/验证模型，用反事实重标 + 时间裁剪合成负样本，训练 VLM 评判机器人任务成没成。
H-WM	学术线 · 2026	逻辑/符号状态 + 视觉子目标的分层世界模型，用任务级逻辑状态做长程一致性。

⑤ 这段想象能信多远

固定 horizon 默认模型在所有状态下都能信同样远。但可信的 rollout 长度（trust horizon）随状态、任务阶段、接触模式而变。这个零件把「能信几步」变成一等的算法对象：可变长度、按不确定性自适应截断、或分层调度。如何把它做成可测的实验，我单独写过一篇。

论文	机构 · 时间	它改这个零件的什么
NEUBAY	Mila (Bacon) · 2026-05	按每个 (s,a) 的认知不确定性自适应截断 rollout，证明「固定长视界因价值高估崩、自适应稳」横跨 33 个数据集。
Variable-Length Latent World Models	PKU (王奕森) · Amazon · 2026-06	训一个能预测任意 k 步的模型，把固定步长世界模型证明成自己的特例，并把在线自适应选 horizon 列为 future work。
Hierarchical Planning with Latent World Models	Meta FAIR (LeCun) · NYU · Mila · 2026-04	共享 latent 里训多时间尺度世界模型做分层 MPC，长 horizon 的预测当短 horizon 的子目标，压住误差累积（真机 70% vs 单层 0%）。
Universal Horizon Models	学术线 · 2026	把未来 horizon 作为显式随机变量做 offline value learning，从概念上支持 horizon-conditioned 预测。

⑥ planner 会专挑模型的漏洞

world model 被动预测时没人搜它；放进 planner 后，planner 为了拿高分会主动找「模型给超高分、其实是幻觉」的动作，把模型带到训练时没见过的区域。所以可信几步不只看状态，还看 planner 多会钻空子——这是状态与 planner 共同决定的。这个零件的工作要么诊断这种利用、要么用想象闭环反过来加固模型。

论文	机构 · 时间	它改这个零件的什么
Closing the Train-Test Gap	Columbia · NYU (LeCun) · 2025-12	指出 planner 的优化把模型带到训练分布外，用 planner 诱导/对抗状态合成训练数据补回——可信度主要由 planner 驱动，不只是状态。
GRASP	UC Berkeley / BAIR · 2026-04	梯度规划穿过很多步 serial rollout 反传会变脆；用虚拟状态 + 梯度重塑让学出的模型在更长 horizon 上可规划。
stable-worldmodel	Mila · NYU (LeCun/Balestriero) · 2026-05	统一 MPC 评测平台，核心发现「预测准 ≠ 规划好」：planner 钻无关视觉特征的空子，干扰物一变规划成功率二次衰减。
VLAW	Stanford (Finn/Liang) · Tsinghua · 2026-02	用真机在线 rollout（含失败）微调 Ctrl-World 世界模型补回物理保真度，再生成合成 rollout 改进 VLA，形成策略↔世界模型互改闭环。
RISE	OpenDriveLab · HKU · Tsinghua · 2026-02 · RSS	组合式世界模型（可控动力学 + progress value）让 VLA 在想象空间里 rollout-估优势-更新，免去真实试错。
Affordances Enable Partial World Modeling	Google DeepMind (Khetarpal/Precup) · 2026-02	证明意图条件 agent 必然带 affordance 信息化的「部分世界模型」，只对任务相关子集做高质量预测，降低搜索分支因子。
TiPToP	MIT CSAIL (Kaelbling/Lozano-Pérez) · UPenn · 2026-03	零机器人数据，把预训练视觉模型叠到 GPU 并行 TAMP 上，正面对比「显式规划器 vs 端到端 VLA」。
GHOST	CMU (Held) · UMass · 2026-06 · RSS	用高层 sub-goal 策略 + 低层控制器，把 sub-goal 当跨本体接口拉长有效规划视界，用少量人类视频泛化。
Q-learning with Adjoint Matching	UC Berkeley / BAIR (Levine) · 2026-01	用 adjoint matching 把 critic 的动作梯度转成逐步目标，稳定优化扩散/流策略，避免对多步去噪反传的不稳定。

⑦ 动作接口、评测与数据

这个零件不直接动想象本身，而是决定想象能不能用上：动作以什么单位输出（action chunk、latent action）、用什么 benchmark 量世界模型好不好、数据从哪来。它是其余六个零件的地基。

论文	机构 · 时间	它改这个零件的什么
WorldArena	Tsinghua FIB · SJTU · HKU · Princeton 等 · 2026-02 · CVPR Challenge	统一基准同时评世界模型的感知保真度与对下游任务的功能效用（当 data engine / policy evaluator / action planner 三种角色），揭示「感知-功能鸿沟」。
LDA-1B	PKU-EPIC · BAAI · NVIDIA 等 · 2026-02 · RSS	在 DINO latent 里联合学潜动态 + 策略 + 视觉预测，用 30k+ 小时人/机异构数据把潜动态动作模型 scale 到 1B+。
Rethinking Video Generation for the Embodied World	PKU DAGroup · ByteDance Seed · 2026-01 · ICML	为机器人导向视频生成造 RBench 基准（含物理可信度子指标）+ 400 万标注片段 RoVid-X 数据集。
π0.7	Physical Intelligence (Levine/Finn) · 2026-04	可引导的通用机器人基础模型，用多模态上下文条件做多阶段长程厨房任务，吸收示范、次优自主数据与非机器人数据。
Ego-Pi	Stanford · Meta (Finn) · 2026-06	跨本体配方：用第一人称人类视频微调 π0.5 驱动灵巧五指控制，不需新机器人数据就学到新任务语义。
Tune to Learn	MIT Improbable AI (Agrawal) · 2026-04	系统研究位置控制器增益（动作接口的一颗螺丝）如何分别影响 BC / RL / sim2real 三种学习范式。
Preventing Learning Stagnation in PPO	Google DeepMind · Oxford FLAIR · 2026-03	把 PPO 平台期解释为采样损失退化为劣质代理，扩到 >100 万并行环境 + 协同缩放，实现跨万亿 transition 单调提升。
WEAVER	CMU / Mila 信号 · 2026-06	面向操作的世界模型当策略评估器/改进器/规划器，强调高保真、长上下文、生成效率。

另一条长时序轴：不要和机器人闭环混在一起

「long horizon」这个词还指另一件事：LLM / coding agent 的任务时长——一个 agent 跨很多步工具调用、跨会话维持执行状态。它和机器人世界模型的 rollout horizon 不是同一个单位，机制也不同（靠 harness、记忆、外部验证，而不是想象动力学）。下面这些放在这里单列，避免和上面的闭环混为一谈。

论文	机构 · 时间	它在另一条轴上做什么
Reinforcement World Model Learning for LLM Agents	Microsoft Research · Columbia · 2026-02	给文本态 LLM agent 学动作条件世界模型，用 sim-to-real gap 奖励对齐模拟态与真实态，比 next-token / LLM-as-judge 更抗 reward hacking。
CaP-X	Berkeley · Stanford · NVIDIA 等 · 2026-03 · ICML	评测让 LLM 当 Code-as-Policy 写机器人控制程序：性能随人工抽象升、剥离则退化，靠多轮交互/执行反馈补回。
Solving Physics Olympiad via RL on Simulators	CMU (Pathak/Fragkiadaki) · 2026-04 · ICML	物理引擎当监督源对 LLM 推理链做 RL，实现对物理奥赛的零样本 sim2real——模拟器当监督，但闭环是文本推理。

回到这张图

把上面几十篇放回那张闭环图，会看到一件事：大家不是在做几十个互不相干的问题，而是在改同一个回路的不同零件。表示层在让 latent 真对应世界；记忆层在选该记的关键时刻；动力学层在不把接触切换平均掉；事件层在问任务谓词是不是真的成立；trust horizon 层在量这段想象能信多远；planner 层在防优化器钻模型空子；接口与评测层在给前六个零件搭地基。

这张图也是一把筛子。读一篇新论文时，先问它动的是哪个零件、为什么改、拿什么证据证明改对了。零件清楚了，「long horizon」就不再是一个发散的形容词，而是一个具体的位置：在 planner 查询 world model 的那一刻，当前状态、候选动作和 imagined rollout 共同决定模型还能被信任多远。

References

Nicklas Hansen, Xiaolong Wang, Hao Su, Temporal Difference Learning for Model Predictive Control (TD-MPC); TD-MPC2.
① 状态表示：Latent Particle World Models, 3D-DLP, Physical Object Understanding, V-JEPA 2.1, LeWM, When Does LeJEPA Learn a World Model?, Slot-MPC, PointWorld.
② 记忆：MemoryWAM, Mem-World, MEM, KEMO, EventVLA, World-Ego Modeling.
③ 预测动态：PRISM-WM, DreamDojo, LingBot-VA, Contact-Rich SE(2) Global Planning, IMPASTO.
④ 事件验证：EV-WM, World Action Verifier, CoVer, RoboReward, H-WM.
⑤ Trust horizon：NEUBAY, Variable-Length Latent World Models, Hierarchical Planning with Latent World Models, Universal Horizon Models.
⑥ planner–模型关系：Closing the Train-Test Gap, GRASP, stable-worldmodel, VLAW, RISE, Affordances Enable Partial World Modeling, TiPToP, GHOST, Q-learning with Adjoint Matching.
⑦ 接口/评测/数据：WorldArena, LDA-1B, Rethinking Video Generation for the Embodied World, π0.7, Ego-Pi, Tune to Learn, Preventing Learning Stagnation in PPO, WEAVER.
另一条长时序轴：Reinforcement World Model Learning for LLM Agents, CaP-X, Solving Physics Olympiad via RL.