在 model-based RL 里,world model 很少单独存在。它通常被 planner 反复调用,用来比较多条候选动作序列。planner 从当前状态出发,把一串动作交给模型,得到预测状态、预测 reward 或 terminal value,再决定真实环境里下一步执行什么。
这个被反复调用的部分,可以叫 transition operator。它是 learned dynamics 的接口。经典写法是:
\(z_t\) 是 observation 编码后的 latent state,\(a_t\) 是动作,\(d_\theta\) 是模型学出来的 dynamics function。它不等于真实物理定律本身。它更像 planner 手里的模拟器接口:planner 相信这个接口返回的未来,并在这个未来上优化动作。
许多 world-model 方法都沿用一个朴素假设:一个平滑的、单一的 transition function 可以处理 planner 需要的未来预测。VLWM 和 PRISM-WM 的关系,正好可以从这里看清楚。它们改的模块不同,修正的假设相同。
VLWM 改的是时间跨度
Variable-Length Latent World Models 提出的改动很直接。旧接口只训练一步预测:
长程规划时,planner 必须把这个一步模型反复应用:
每一步预测误差都会进入下一次预测的输入。模型先前的输出逐渐取代真实状态,rollout drift 由此产生。
VLWM 把训练目标改成可变长度预测:
动作不再只作为某一层里的辅助 conditioning。VLWM 把 action embedding 当作 token,放进 transformer sequence 里。action segment 的长度变了,输入序列长度也跟着变。模型输出最后一个 token 对应的未来 latent。
训练时,\(k\) 从短到长逐渐加入。论文使用 cumulative-uniform curriculum:先训练 \(k=1\),再训练 \(k \in \{1,2\}\),最后覆盖 \(1,\ldots,K_{\max}\)。实验配置里 \(K_{\max}=5\),frame-skip 为 5,所以单个 latent jump 最多覆盖 25 个环境步。
推理时,真实环境仍然一步步执行动作。变化发生在 planner 评估候选动作序列的方式上。模型可以用几个 chunked latent jumps 估计未来,例如:
这减少了递归调用次数,也让模型在训练阶段见过不同时间尺度的目标。
长目标为什么可能更有用
相邻视频帧通常包含大量冗余。一个模型只需要让 latent 轻微移动,就可能在 \(t \rightarrow t+1\) 上取得很低的 loss。它可以学到局部连续性,却没有被迫表示一段动作的累计后果。
\(t \rightarrow t+k\) 的目标更难。难点本身带来约束:模型需要解释一段动作之后的状态变化。TwoRoom 里,重要事件是穿过门;PushT 里,重要变化是物体姿态被推向目标;这些变化在单步预测里经常被局部平滑掩盖。
这不意味着长跨度天然更准。长目标的噪声更大,优化更不稳定。VLWM 的判断是:短跨度提供局部细节,长跨度提供结构约束,curriculum 让模型先学稳定的短程动态,再逐步接受更远的监督。
实验里的证据也应按这个边界读。VLWM 在 PushT、OGBench-Cube 和 TwoRoom 的 goal-conditioned planning 上比较 LeWorldModel。长 offset 下提升更明显,例如 TwoRoom-100 从 LeWM 的 36% 到 VLWM 的 68%。但主图使用 per-cell oracle planner,在每个任务和 offset 上选择 P1/P2/P3 里最好的策略。论文证明 variable-length transition 有价值,在线选择 chunk length 的问题仍然开放。
PRISM-WM 改的是物理模式
PRISM-WM 改同一个 transition operator 的另一维。
机器人动力学在接触丰富的任务里经常带有 hybrid structure:连续运动会被离散事件打断。脚接触地面、腾空、滑动、撞击、恢复,这些状态之间的切换会改变动力学规律。用一个单体 MLP 表示所有状态时,模型倾向于把不同 regime 的转移平均到同一个平滑函数里。
PRISM-WM 把一步 transition 写成 mixture-of-experts:
gate 读取当前 latent 和 action,输出一组权重。每个 expert 提出一种 residual dynamics。orthogonalization 约束 expert 学到非冗余的基,减少所有 expert 退化成相似函数的风险。
从 transition operator 的角度看,PRISM-WM 的改动发生在 dynamics 调用内部。planner 仍然在 latent rollout 上比较候选动作;每次调用 dynamics 时,模型会先判断当前上下文对应哪些物理 regime,再组合对应的专家预测。
同一个 operator 的两条轴
把两篇文章放在一起,关系会很清楚。
VLWM 认为固定一步预测没有给模型足够的长程监督。它把 transition operator 从 one-step function 扩展成 horizon-conditioned function。
PRISM-WM 认为单体平滑函数会混合不同物理 regime。它把 transition operator 从 monolithic function 改成 context-routed expert composition。
一个改时间,一个改物理结构。二者共同修正同一个朴素假设:planner 所需的未来预测,可以由一个平滑、单一、固定步长的 transition function 承担。
更进一步,二者理论上可以组合。一个 PRISM-style VLWM 会让 action segment 先定义预测跨度,再让 gate 根据当前状态和动作上下文选择专家:
这样的系统会同时处理两类误差来源:递归 rollout 带来的时间累积误差,以及 contact regime 被平均带来的物理结构误差。它也会引入新的问题:gate 应该按当前 regime 路由,还是按未来 action segment 内的 regime sequence 路由;一个长 chunk 内发生多次接触切换时,单次 expert composition 是否足够。
证据哪里还脆弱
VLWM 的长程结果很有启发性,但 oracle planner 让主结果带有选择优势。真正部署时,系统需要在线决定 chunk length。论文已经指出没有一种 P1/P2/P3 策略在所有任务上稳定最优。
PRISM-WM 对 contact-rich dynamics 的诊断很强,但 MoE 的 expert 数量、路由稳定性、orthogonalization 对不同任务的迁移边界,仍然需要更多复现和任务扩展。它改善了物理 regime 的表达方式,却没有直接解决预测跨度选择。
这也是两篇文章放在一起的价值。VLWM 暴露时间尺度问题,PRISM-WM 暴露物理 regime 问题。二者都把注意力从“planner 怎么搜索动作”转向“planner 每次调用的 learned simulator 是否具备正确接口”。
world model 的 transition operator 因此值得单独命名。它决定 planner 能看到什么未来,也决定错误会以什么方式进入下一次规划。
References
- Tianqi Du, Qi Zhang, Yifei Wang, Yisen Wang. Beyond the Next Step: Variable-Length Latent World Models for Long-Horizon Planning, arXiv:2606.21775, 2026.
- Mingwei Li, Xiaoyuan Zhang, Chengwei Yang, Zilong Zheng, Yaodong Yang. Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems, arXiv:2512.08411, 2025.
- Nicklas Hansen, Hao Su, Xiaolong Wang. Temporal Difference Learning for Model Predictive Control, arXiv:2203.04955, 2022.
- Lucas Maes et al. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels, arXiv:2603.19312, 2026.