World Model 的 Transition Operator：VLWM 和 PRISM-WM 改了同一个接口

在 model-based RL 里，world model 很少单独存在。它通常被 planner 反复调用，用来比较多条候选动作序列。planner 从当前状态出发，把一串动作交给模型，得到预测状态、预测 reward 或 terminal value，再决定真实环境里下一步执行什么。

这个被反复调用的部分，可以叫 transition operator。它是 learned dynamics 的接口。经典写法是：

\[ d_\theta(z_t, a_t) \rightarrow \hat z_{t+1} \]

\(z_t\) 是 observation 编码后的 latent state，\(a_t\) 是动作，\(d_\theta\) 是模型学出来的 dynamics function。它不等于真实物理定律本身。它更像 planner 手里的模拟器接口：planner 相信这个接口返回的未来，并在这个未来上优化动作。

许多 world-model 方法都沿用一个朴素假设：一个平滑的、单一的 transition function 可以处理 planner 需要的未来预测。VLWM 和 PRISM-WM 的关系，正好可以从这里看清楚。它们改的模块不同，修正的假设相同。

planner 看到的 world model 首先是一个 transition operator。它把当前 latent state 和候选动作转换成可继续规划的未来 latent state。

VLWM 改的是时间跨度

Variable-Length Latent World Models 提出的改动很直接。旧接口只训练一步预测：

\[ d_\theta(z_t, a_t) \rightarrow \hat z_{t+1} \]

长程规划时，planner 必须把这个一步模型反复应用：

\[ z_t \rightarrow \hat z_{t+1} \rightarrow \hat z_{t+2} \rightarrow \cdots \rightarrow \hat z_{t+H} \]

每一步预测误差都会进入下一次预测的输入。模型先前的输出逐渐取代真实状态，rollout drift 由此产生。

VLWM 把训练目标改成可变长度预测：

\[ g_\phi(z_t, a_t, a_{t+1}, \ldots, a_{t+k-1}) \rightarrow \hat z_{t+k} \]

动作不再只作为某一层里的辅助 conditioning。VLWM 把 action embedding 当作 token，放进 transformer sequence 里。action segment 的长度变了，输入序列长度也跟着变。模型输出最后一个 token 对应的未来 latent。

训练时，\(k\) 从短到长逐渐加入。论文使用 cumulative-uniform curriculum：先训练 \(k=1\)，再训练 \(k \in \{1,2\}\)，最后覆盖 \(1,\ldots,K_{\max}\)。实验配置里 \(K_{\max}=5\)，frame-skip 为 5，所以单个 latent jump 最多覆盖 25 个环境步。

推理时，真实环境仍然一步步执行动作。变化发生在 planner 评估候选动作序列的方式上。模型可以用几个 chunked latent jumps 估计未来，例如：

\[ z_t \rightarrow \hat z_{t+5} \rightarrow \hat z_{t+10} \rightarrow \cdots \]

这减少了递归调用次数，也让模型在训练阶段见过不同时间尺度的目标。

这里的 one-step 指 dynamics 的训练目标和调用接口。TD-MPC 系列方法在测试时通常会做短 horizon latent rollout，并用 terminal value 估计短 horizon 之后的 return。

长目标为什么可能更有用

相邻视频帧通常包含大量冗余。一个模型只需要让 latent 轻微移动，就可能在 \(t \rightarrow t+1\) 上取得很低的 loss。它可以学到局部连续性，却没有被迫表示一段动作的累计后果。

\(t \rightarrow t+k\) 的目标更难。难点本身带来约束：模型需要解释一段动作之后的状态变化。TwoRoom 里，重要事件是穿过门；PushT 里，重要变化是物体姿态被推向目标；这些变化在单步预测里经常被局部平滑掩盖。

这不意味着长跨度天然更准。长目标的噪声更大，优化更不稳定。VLWM 的判断是：短跨度提供局部细节，长跨度提供结构约束，curriculum 让模型先学稳定的短程动态，再逐步接受更远的监督。

实验里的证据也应按这个边界读。VLWM 在 PushT、OGBench-Cube 和 TwoRoom 的 goal-conditioned planning 上比较 LeWorldModel。长 offset 下提升更明显，例如 TwoRoom-100 从 LeWM 的 36% 到 VLWM 的 68%。但主图使用 per-cell oracle planner，在每个任务和 offset 上选择 P1/P2/P3 里最好的策略。论文证明 variable-length transition 有价值，在线选择 chunk length 的问题仍然开放。

PRISM-WM 改的是物理模式

PRISM-WM 改同一个 transition operator 的另一维。

机器人动力学在接触丰富的任务里经常带有 hybrid structure：连续运动会被离散事件打断。脚接触地面、腾空、滑动、撞击、恢复，这些状态之间的切换会改变动力学规律。用一个单体 MLP 表示所有状态时，模型倾向于把不同 regime 的转移平均到同一个平滑函数里。

PRISM-WM 把一步 transition 写成 mixture-of-experts：

\[ \hat z_{t+1} = z_t + \sum_{i=1}^{K} w_i(z_t, a_t)\, v_i(z_t, a_t) \]

gate 读取当前 latent 和 action，输出一组权重。每个 expert 提出一种 residual dynamics。orthogonalization 约束 expert 学到非冗余的基，减少所有 expert 退化成相似函数的风险。

从 transition operator 的角度看，PRISM-WM 的改动发生在 dynamics 调用内部。planner 仍然在 latent rollout 上比较候选动作；每次调用 dynamics 时，模型会先判断当前上下文对应哪些物理 regime，再组合对应的专家预测。

两篇工作都修改 transition operator。VLWM 改时间跨度，PRISM-WM 改物理 regime 的表达方式。

同一个 operator 的两条轴

把两篇文章放在一起，关系会很清楚。

VLWM 认为固定一步预测没有给模型足够的长程监督。它把 transition operator 从 one-step function 扩展成 horizon-conditioned function。

PRISM-WM 认为单体平滑函数会混合不同物理 regime。它把 transition operator 从 monolithic function 改成 context-routed expert composition。

一个改时间，一个改物理结构。二者共同修正同一个朴素假设：planner 所需的未来预测，可以由一个平滑、单一、固定步长的 transition function 承担。

更进一步，二者理论上可以组合。一个 PRISM-style VLWM 会让 action segment 先定义预测跨度，再让 gate 根据当前状态和动作上下文选择专家：

\[ (z_t, a_{t:t+k-1}) \rightarrow \text{routed variable-length dynamics} \rightarrow \hat z_{t+k} \]

这样的系统会同时处理两类误差来源：递归 rollout 带来的时间累积误差，以及 contact regime 被平均带来的物理结构误差。它也会引入新的问题：gate 应该按当前 regime 路由，还是按未来 action segment 内的 regime sequence 路由；一个长 chunk 内发生多次接触切换时，单次 expert composition 是否足够。

证据哪里还脆弱

VLWM 的长程结果很有启发性，但 oracle planner 让主结果带有选择优势。真正部署时，系统需要在线决定 chunk length。论文已经指出没有一种 P1/P2/P3 策略在所有任务上稳定最优。

PRISM-WM 对 contact-rich dynamics 的诊断很强，但 MoE 的 expert 数量、路由稳定性、orthogonalization 对不同任务的迁移边界，仍然需要更多复现和任务扩展。它改善了物理 regime 的表达方式，却没有直接解决预测跨度选择。

这也是两篇文章放在一起的价值。VLWM 暴露时间尺度问题，PRISM-WM 暴露物理 regime 问题。二者都把注意力从“planner 怎么搜索动作”转向“planner 每次调用的 learned simulator 是否具备正确接口”。

world model 的 transition operator 因此值得单独命名。它决定 planner 能看到什么未来，也决定错误会以什么方式进入下一次规划。

References

Tianqi Du, Qi Zhang, Yifei Wang, Yisen Wang. Beyond the Next Step: Variable-Length Latent World Models for Long-Horizon Planning, arXiv:2606.21775, 2026.
Mingwei Li, Xiaoyuan Zhang, Chengwei Yang, Zilong Zheng, Yaodong Yang. Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems, arXiv:2512.08411, 2025.
Nicklas Hansen, Hao Su, Xiaolong Wang. Temporal Difference Learning for Model Predictive Control, arXiv:2203.04955, 2022.
Lucas Maes et al. LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels, arXiv:2603.19312, 2026.