Long Horizon World Models:从主张到实验

June 2026

研究 long horizon world model 时,真正困难的地方常常在实验设计:怎样把“模型想远了会失败”变成可测的任务、baseline、指标和 ablation。

一个 robot world model 被放进 MPC 之后,问题很快变得具体。系统从当前 observation 得到 state,给一批 candidate action sequences 做 rollout,用 predicted reward、value、event 或 task progress 给每条候选动作打分,然后执行下一小段动作。新的 observation 到来后,系统再规划一次。

long horizon failure 发生在这个循环里:world model 在想象中给某条 candidate 很高分,真实执行却失败。这个失败比普通 prediction error 更接近控制系统本身,因为它改变了 planner 的动作选择。

observe current state sample candidate actions rollout world model score reward / value execute first action chunk failure appears when a high imagined score selects a bad real action
MPC 里的 world model 反复被 planner 查询。实验既要检查 rollout 像不像未来,也要检查 rollout 是否让 planner 选错动作。

先写出想证明的结果

读这类论文时,我现在更愿意先写实验主张。一个主张要能变成比较、任务、指标和负结果检查。

作者想证明 A。 为了证明 A,实验必须制造 B。 实验比较 C 和 D。 如果指标 E 提升,同时失败现象 F 减少,A 得到支持。 如果平均分提升但 F 没减少,A 仍然脆弱。

这个顺序会过滤掉很多泛泛的 long horizon 叙述。long horizon 可以指 rollout 步数、任务阶段、历史记忆、语言上下文、动作 chunk 或真实时间。实验必须先确定单位。

对 learned robot world model 来说,我最关心的单位是:在当前状态和候选动作下,world model 的 imagined rollout 最多能支持 planner 决策几步。

一个可测主张

我会把研究主张写成:

Research Claim

在 closed-loop planning 中,world model 的可信 rollout 长度随状态和 candidate trajectory 变化。一个 verifier 能提前识别不可信 rollout,并让 MPC 少选择模型里高分、真实中失败的动作。

这句话把研究对象放到 planner 使用 world model 的位置上。它要求实验回答五件事。

实验主张 要证明什么 关键证据
固定 horizon 有问题 同一个模型在 free-space、contact、occlusion、subtask transition 下能被信任的步数不同。 不同状态的 rollout error、event error、real success drop 曲线不同。
planner 会放大错误 planner-selected candidates 比普通 candidates 更容易落在模型高分、真实失败的区域。 false-positive high-value rate、ranking flip rate、real outcome 对比。
verifier 能提前报警 只看 current state、candidate action、imagined rollout 和模型内部信号,也能预测可用步数。 coverage-risk curve、calibration curve、early warning lead time。
接进 MPC 后有用 verifier 改变 action selection,让真实闭环失败减少。 task success、subtask completion、unsafe action、replanning count、latency。
能继续改训练 planner 经常访问的不可靠区域可以变成下一轮 world model training data。 planner-aware retraining 后,同类高风险 candidate 的 false positive 下降。

已有论文在测试什么

这批论文表面上很分散:latent MPC、hybrid dynamics、event verification、memory、humanoid hierarchy、video foundation model。把它们按实验主张读,会更清楚。

TD-MPC:短 rollout 加 terminal value 是否足够支撑控制

TD-MPC 把 world model 用在一个短程 planning 接口里:latent dynamics 向前 rollout 几步,reward model 给局部回报,terminal value 估计更远未来。它的实验要证明,控制任务里可以让 world model 服务 action selection,而不把完整未来还原出来。

对 trust horizon 方向来说,TD-MPC 提供了 fixed-horizon MPC 的基础形状。下一步问题自然变成:这个 horizon 能否随状态变化。

PRISM-WM:接触和 regime switch 是否会缩短可预测步数

PRISM-WM 研究的是 transition function。接触、滑动、站立、飞行等动力学模式被一个 monolithic latent dynamics 平均后,planner 反复调用这个函数,错误会沿 rollout 累积。

它的实验要看 dynamics architecture 改动是否改善 long-rollout fidelity 和 closed-loop control。这个证据提示:trust horizon 应该按 state regime 分解。contact state 很可能比 free-space state 更早失效。

GRASP 和 train-test gap:planner 是否制造自己的测试分布

GRASP 关注 gradient-based planning 的长链优化问题。长 horizon 上,优化器需要穿过很多步 serial rollout 反传,planning interface 自己会变脆。Closing the Train-Test Gap in World Models for Gradient-Based Planning 把问题推进一步:world model 训练时看的是数据集状态,测试时被 planner 带到另一批状态。

这类实验提醒我,不能只在 held-out trajectories 上测 prediction error。需要保存 planner 生成和选择的 candidates,再看 planner-selected candidates 是否更容易出错。

EV-WM、memory papers:长任务里的失败经常来自事件和记忆

EV-WM 用 event state 检查 imagined future 里的任务进度。未来画面看起来合理,仍然可能没有抓住、没有放入、没有关上、没有满足下一步动作的前置条件。

Mem-WorldKEMOEventVLA 把长任务失败放到 memory 上:当前 observation 看不到早期事件、遮挡物体或历史计数,policy 需要某种历史状态才能继续行动。

这些实验说明,verifier 的输入不应只有 uncertainty。event consistency、object persistence、memory availability、contact mode 都可能比 pixel error 更早预警控制失败。

Variable-length 和 adaptive horizon:horizon 应该进入接口

Variable-Length Latent World ModelsNEUBAY 都把 horizon 作为算法对象处理。固定短 horizon 可能太短视,固定长 horizon 容易引入不可靠 future,adaptive horizon 则让模型使用长度随样本变化。

对 verifier-MPC 来说,这给出了直接接口:把 MPC 里的固定 H 换成由 verifier 输出的 trust horizon,或者保留最大 H,但对不可信 future 加 risk penalty。

我希望最后看到的五张图

研究 proposal 可以从最后的实验图倒推。若这些图画不出来,主张通常还没有变成实验。

risk horizon in-contact occlusion free-space state-dependent trust horizon distribution planner-selected candidates vs random candidates
第一张图应该证明不同状态的可用 rollout 长度不同;第二张图应该证明 planner 选中的 candidates 更容易暴露 world model 错误。

第一张图:不同状态的 trust horizon 分布。free-space、pre-contact、in-contact、occlusion、subtask transition、planner-selected high-score candidate 分开画。它证明 horizon 依赖状态。

第二张图:planner-selected candidates 和 random candidates 的错误对比。它证明 planner 会把 model error 放大成 action-selection error。

第三张图:verifier-controlled MPC 与 fixed short horizon、fixed long horizon、uncertainty-only、event-only、oracle horizon 的闭环成功率对比。它证明 verifier 改变了真实行为。

第四张图:危险状态上的失败分解。contact、occlusion、subtask transition、planner exploitation 分开报告。它证明提升来自具体失败减少。

第五张图:coverage-risk curve 和 calibration curve。它证明 verifier 的 trust horizon 输出本身可校准。

实验数据从哪里来

这个实验不需要第一步就训练一个巨大 foundation model。更合理的起点是已有 model-based control 框架或简化 robot manipulation 环境。数据需要三类。

数据 记录什么 用来证明什么
真实轨迹 state、action、next state、reward、event、object state。 imagined rollout 在第几步开始偏离真实未来。
planner candidates MPC 每次生成的所有 action sequences,包括最后选中的和未选中的。 planner 是否偏好模型里高分、真实中失败的候选动作。
状态标签 free-space、pre-contact、in-contact、occlusion、object moved、subtask transition、narrow feasibility。 trust horizon 是否随状态类型变化。

最关键的一步是给每个 rollout 产生 trust horizon label。可以定义第一个决策相关错误出现的步数为 hfail,再令 htrust = hfail - 1。这里的错误不能只用 pixel loss,可以包含 event error、value error、object state error、contact mode error、ranking flip 或真实成功率下降。

baseline 要回答具体问题

baseline 的作用在于逐个排除解释。

baseline 它回答的问题
fixed short horizon MPC 短 horizon 是否已经足够,verifier 是否只是在变保守。
fixed long horizon MPC 长 rollout 是否真的引入错误。
uncertainty-only MPC 普通不确定性能否替代 verifier。
event-only MPC 任务进度信号是否已经足够。
contact-only MPC 接触状态是否解释主要失败。
memory-only MPC 遮挡和历史状态是否解释主要失败。
oracle horizon MPC 如果知道真实 trust horizon,这个方向的上界有多高。

如果 oracle horizon 很强,full verifier 很弱,说明问题有价值,模块还不够好。如果 oracle horizon 也弱,horizon selection 可能并非这个环境里的主要瓶颈。

负结果也要提前写进实验

这个方向最容易出现四种假提升。

第一,verifier 只学会保守。success rate 上升,replanning count、latency 和任务完成时间也大幅上升,系统可能只是一直缩短动作、频繁重规划。

第二,verifier 只学到 task ID。换任务或换状态分布后失效,说明它没有学到一般的 trust signal。

第三,verifier 只学到短 horizon 安全。它永远输出短 horizon,可以减少部分错误,也会让长链任务无法完成。

第四,verifier 没有改变 planner 选择。平均 reward 提升,但 planner-selected candidates 的 false-positive high-value rate 没下降,主张仍然脆弱。

一张论文阅读卡

之后读 long-horizon world model 论文,我会用这张卡片记录实验逻辑。

论文: 它最终想证明: 它认为旧系统在哪里失败: 它改了哪个接口: 它在哪个平台或 benchmark 上做实验: 它设计了哪些任务暴露失败: 它和谁比较: 它用哪些指标证明主张: 它的关键结果: 它的 ablation 拆掉了什么: 它没有证明什么: 它能借到 verifier-MPC 实验的哪一步:

这张卡强迫自己把论文当作证据设计来读。方法名、模块名和 benchmark 名都会留在纸面上;真正需要进入脑子的是作者怎样把一个主张变成可测结果。

结尾

Long horizon world model 的研究空间很大。直接说“模型要看得更远”会让问题发散。更可操作的说法是:在 planner 查询 world model 的那一刻,系统需要知道这段 imagined rollout 还能支持几步决策。

这个问题有清楚的实验路径:按状态分组测 trust horizon,保存 planner candidates,检查 model score 和 real outcome 的排序偏差,把 verifier 接进 MPC,再用危险状态上的失败减少来解释闭环提升。

如果这些实验成立,world model 的 long horizon 就不再只是一个形容词。它会变成一个接口:当前状态、候选动作和 imagined rollout 共同决定模型还能被 planner 信任多远。

References

  1. Nicklas Hansen, Xiaolong Wang, Hao Su, Temporal Difference Learning for Model Predictive Control.
  2. Nicklas Hansen, Hao Su, Xiaolong Wang, TD-MPC2: Scalable, Robust World Models for Continuous Control.
  3. Li et al., Prismatic World Model.
  4. GRASP.
  5. Closing the Train-Test Gap in World Models for Gradient-Based Planning.
  6. Event-Verified World Models.
  7. Variable-Length Latent World Models and NEUBAY.
  8. Mem-World, KEMO, and EventVLA.
  9. Slot-MPC, PointWorld, and WEAVER.
  10. Puppeteer, Newt, Cosmos Policy, and Cosmos 3.