Long Horizon:152 篇世界模型论文阅读梯队
一份面向 robot world model、long-horizon planning、trust horizon、event verification 和 embodied memory 的阅读优先级表。
这是一份面向 long-horizon robot world model 的阅读优先级表。它把 152 个 world-model、robot policy、VLA、humanoid、memory 与 LLM-agent 类比条目放到同一个梯队里,方便判断哪些论文值得先精读,哪些适合按问题回查。
这张表服务一个具体阅读目标:如果接下来要围绕 robot world model 的长时程可靠性、闭环规划、trust horizon、event verification 和 memory 继续往下读,应该先把哪些工作放到桌面上。分数表示阅读优先级,不代表论文质量的最终排名,也不构成领域权威榜单。
读表方式
论文打分: 0-100 综合阅读优先分,来自重要性 35% + World Model 相关度 25% + Long-Horizon 相关度 25% + 组织权威 15%。重要: 这篇在当前研究路线中的概念/实验/路线价值,1-5。WM: 与 world model 本体、世界模型规划、生成/预测/评估接口的相关度,1-5。LH: 与 long-horizon failure、长程执行、记忆、事件进度、信任时域的相关度,1-5。组织权威: 只作为加权信号,不替代论文内容。Stanford、DeepMind、OpenAI、NVIDIA、UC Berkeley、CMU、MIT、Meta FAIR、Google/DeepMind、Mila 等会加分;尚未逐条核实的 queue 条目标待核。证据状态:M是 roadmap 条目,K是经典锚点,S1/S2是已做过源检查或 first-pass 的条目,H corpus-map是从 152 项 corpus map 继承,仍需后续 S3 核对。
梯队定义
| 梯队 | 读法 | 判据 | 数量 |
|---|---|---|---|
| T0 | 立刻精读,做 paper card / 复现或实验设计直接引用 | score range by rubric | 24 |
| T1 | 优先精读,围绕一个问题读方法图、主实验和消融 | score range by rubric | 48 |
| T2 | 问题驱动阅读,读 abstract、方法骨架、主表和局限 | score range by rubric | 65 |
| T3 | 背景/补课/对照,按概念需要 skim | score range by rubric | 12 |
| T4 | 旁支或类比,暂不挤占机器人 world-model 主线时间 | score range by rubric | 3 |
接口覆盖
| 接口 | 数量 |
|---|---|
| 闭环规划 | 19 |
| 预测/漂移 | 21 |
| 信任时域 | 12 |
| 事件验证 | 16 |
| 记忆/持久性 | 20 |
| 动作抽象 | 33 |
| 序列WM | 11 |
| 评测/指标 | 12 |
| LLM类比 | 8 |
一眼优先级
如果只想先读出判断力,先读 T0;如果要补完整地图,再顺着 T1/T2 按接口补。T3/T4 是有用的背景或类比,但不应该打断当前主线。
T0
| # | Paper | Year | 接口 | 论文打分 | 重要 | WM | LH | 组织权威 | 组织/来源信号 | 证据状态 | 一句话 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | GRASP | 2026 | 闭环规划 | 97 | 4.9 | 4.8 | 4.8 | 5.0 顶级 | University of California, Berkeley; Meta FAIR; New York University | S2/S1 local source-checked | 用虚拟中间状态和梯度规划,直接暴露并缓解 planner 穿过 learned dynamics 时的长时域脆性。 |
| 2 | TD-MPC | 2022 | 闭环规划 | 95 | 5.0 | 4.5 | 4.8 | 4.6 强 | Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线 | M local-roadmap / paper card | 你的算法主干:短时域规划+终端价值。 |
| 3 | PRISM-WM | 2026 | 预测/漂移 | 95 | 5.0 | 5.0 | 4.3 | 4.4 强 | Beijing Institute of Technology; Peking University; BIGAI / NLCo Lab; Mingwei Li et al. | M local-roadmap | 你的本地目标:混合/接触动力学可能有不同信任时域。 |
| 4 | Closing the Train-Test Gap (gradient planning) | 2025 | 闭环规划 | 94 | 4.8 | 4.8 | 4.6 | 4.5 强 | Columbia University; New York University | S1 source-checked | 让世界模型在梯度规划诱导的分布下可用。 |
| 5 | Cosmos Policy | 2026 | 闭环规划 | 94 | 4.6 | 4.8 | 4.6 | 5.0 顶级 | NVIDIA; Stanford University | M local-roadmap / paper card | 用 latent frame 注入,一个视频模型当策略+世界+价值。 |
| 6 | WEAVER | 2026 | 预测/漂移 | 94 | 4.8 | 5.0 | 4.1 | 5.0 顶级 | Mila / Universite de Montreal; Carnegie Mellon University; McGill University | S2 local first-pass | 保真+一致+效率同时拿,与真实成功率 0.87 相关。 |
| 7 | Variable-Length Latent World Models | 2026 | 信任时域 | 94 | 4.6 | 4.7 | 5.0 | 4.4 强 | Peking University; Amazon AGI SF Lab | S2 local first-pass | 直接质疑固定 MPC 时域。 |
| 8 | DreamZero (World Action Models) | 2026 | 闭环规划 | 91 | 4.1 | 4.8 | 4.6 | 5.0 顶级 | NVIDIA | S1 source-checked | 世界-动作模型本身就是零样本策略,7Hz 闭环。 |
| 9 | MuZero | 2020 | 闭环规划 | 91 | 4.4 | 4.5 | 4.6 | 5.0 顶级 | DeepMind (known classic; not rechecked here) | K known-anchor | 不重建观测也能用任务相关潜动力学做规划。 |
| 10 | TD-MPC2 | 2024 | 闭环规划 | 91 | 4.5 | 4.5 | 4.6 | 4.6 强 | Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线 | K known-anchor | Newt/Puppeteer 的直系祖先。 |
| 11 | DreamerV3 | 2023 | 预测/漂移 | 91 | 4.4 | 5.0 | 4.1 | 5.0 顶级 | DeepMind / Google Research line (known classic; not rechecked here) | K known-anchor | 强力通用世界模型 RL 基线。 |
| 12 | PointWorld | 2026 | 预测/漂移 | 91 | 4.4 | 5.0 | 4.1 | 5.0 顶级 | Stanford University; NVIDIA | S2 local first-pass | 预测动作条件下的 3D 场景流,绕开像素、可接 MPC。 |
| 13 | NEUBAY | 2026 | 信任时域 | 91 | 4.4 | 4.4 | 5.0 | 4.5 强 | Mila; Universite de Montreal; McGill University | S1 source-checked | 离线无需显式保守:长 rollout 本身压住价值高估。 |
| 14 | PETS | 2018 | 信任时域 | 91 | 4.1 | 4.4 | 5.0 | 5.0 顶级 | UC Berkeley / model-based RL classic line (not rechecked here) | K known-anchor | 不确定性感知基于模型控制的核心基线。 |
| 15 | Universal Horizon Models | 2026 | 信任时域 | 91 | 4.5 | 4.4 | 5.0 | 4.2 强 | Seoul National University | S2 local first-pass | 把 horizon 本身做成离线价值学习的一等变量。 |
| 16 | H-WM | 2026 | 事件验证 | 91 | 4.3 | 4.4 | 5.0 | 4.5 强 | Huawei Noah's Ark Lab; University of Toronto; University of British Columbia; McGill University | S1 source-checked | 用符号/逻辑状态当长时域抗漂移的检查点。 |
| 17 | Newt | 2026 | 闭环规划 | 90 | 4.2 | 4.8 | 4.6 | 4.6 强 | UC San Diego; Nicklas Hansen, Hao Su, Xiaolong Wang | M local-roadmap | 测试 TD-MPC 式世界模型能否跨 200 连续控制任务在线 RL。 |
| 18 | MBPO | 2019 | 预测/漂移 | 90 | 4.2 | 4.8 | 4.3 | 5.0 顶级 | UC Berkeley / model-based RL classic line (not rechecked here) | K known-anchor | "短想象 rollout 避免长程误差累积"的经典论证。 |
| 19 | Dreamer | 2020 | 预测/漂移 | 89 | 4.2 | 4.8 | 4.1 | 5.0 顶级 | DeepMind / Google Research line (known classic; not rechecked here) | K known-anchor | 在想象的潜 rollout 中学行为。 |
| 20 | EV-WM (Event-Verified WM) | 2026 | 事件验证 | 89 | 4.8 | 4.4 | 5.0 | 2.8 待核 | AI Lab, Country Garden Services Group; Fudan University; Omni AI | S2 local first-pass | 直接给任务进度/语义一致性/可行性打分,而非只看像素。 |
| 21 | EventVLA | 2026 | 记忆/持久性 | 89 | 4.5 | 4.0 | 4.9 | 4.4 强 | USTC; Shanghai AI Lab; SJTU; Dalian University of Technology; Huawei; HKU; Tsinghua University; Peking University | S2 local first-pass | 遮挡/不可观时保住任务证据。 |
| 22 | MPC / 滚动时域控制 | 1980 | 闭环规划 | 88 | 4.2 | 4.5 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | TD-MPC/PETS/MPPI 等背后的控制接口。 |
| 23 | PlaNet | 2019 | 预测/漂移 | 88 | 4.1 | 4.8 | 4.1 | 5.0 顶级 | Google DeepMind line (not rechecked here) | K known-anchor | 把规划从像素搬进紧凑潜状态。 |
| 24 | WAV (World Action Verifier) | 2026 | 事件验证 | 86 | 4.6 | 4.4 | 4.8 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 拆成可独立验证的因子;验证比生成便宜,在欠探索区自纠。 |
T1
| # | Paper | Year | 接口 | 论文打分 | 重要 | WM | LH | 组织权威 | 组织/来源信号 | 证据状态 | 一句话 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Deep Visual Foresight | 2017 | 预测/漂移 | 87 | 3.8 | 5.0 | 4.1 | 5.0 顶级 | UC Berkeley robot learning line (not rechecked here) | K known-anchor | 经典机器人视频预测规划,视频世界模型规划的祖先。 |
| 2 | DreamerV2 | 2021 | 预测/漂移 | 87 | 3.8 | 4.8 | 4.3 | 5.0 顶级 | DeepMind / Google Research line (known classic; not rechecked here) | K known-anchor | 视觉控制上更强的长想象行为学习。 |
| 3 | Visual MPC / DNA-CDNA-SNA | 2018 | 预测/漂移 | 87 | 3.8 | 5.0 | 4.1 | 5.0 顶级 | UC Berkeley robot learning line (not rechecked here) | K known-anchor | 暴露了纯像素 rollout 用于操作的早期局限。 |
| 4 | COMBO | 2021 | 信任时域 | 86 | 3.8 | 4.4 | 5.0 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 不确定性/悲观 vs 自适应信任的有用对照。 |
| 5 | MOPO | 2020 | 信任时域 | 86 | 3.8 | 4.4 | 5.0 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 离线 MBRL 对分布漂移下模型误差的回应。 |
| 6 | MOReL | 2020 | 信任时域 | 86 | 3.8 | 4.4 | 5.0 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 把不确定区域当危险处理的离线策略学习。 |
| 7 | RAMBO | 2022 | 信任时域 | 86 | 3.8 | 4.4 | 5.0 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 让离线学到的模型更鲁棒。 |
| 8 | SayCan | 2022 | 事件验证 | 86 | 3.8 | 4.1 | 4.8 | 5.0 顶级 | Google Robotics / DeepMind style line (not rechecked here) | K known-anchor | 桥接语言计划与物理可行。 |
| 9 | VoxPoser | 2023 | 事件验证 | 86 | 3.8 | 4.1 | 4.8 | 5.0 顶级 | Stanford / NVIDIA / robotics line (not rechecked here) | K known-anchor | 把语言约束变成空间价值图。 |
| 10 | Mem-World | 2026 | 记忆/持久性 | 86 | 4.5 | 4.3 | 4.9 | 2.8 待核 | Dalian University of Technology; Samsung R&D Institute China-Beijing | S2 local first-pass | 记忆该怎么索引(几何/腕部视角)比存多少更重要。 |
| 11 | MPPI | 2016 | 闭环规划 | 85 | 3.9 | 4.5 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 机器人里重要的采样式 MPC 基线。 |
| 12 | tau0-WM | 2026 | 闭环规划 | 85 | 4.2 | 4.8 | 4.6 | 2.8 待核 | Shanghai Innovation Institute; AGIBOT Finch | S1 source-checked | 想象作为按需调用的计算,latent 默认、要才渲染。 |
| 13 | Agentic World Modeling | 2026 | 事件验证 | 85 | 3.4 | 4.4 | 4.8 | 5.0 顶级 | Google DeepMind / academic collaboration signal, 2026-06 | S1 source-checked | 从被动预测走向会因预测失败而改写自己的 agent。 |
| 14 | Code as Policies | 2022 | 事件验证 | 85 | 3.8 | 4.1 | 4.8 | 4.8 顶级 | Google Robotics line (not rechecked here) | K known-anchor | 计划可检查/可执行,物理验证仍在外部。 |
| 15 | HumanNet | 2026 | 记忆/持久性 | 85 | 4.1 | 3.8 | 4.9 | 4.4 强 | Peking University / DAGroup; SimpleSilicon Innovation Team | M local-roadmap | 长行为与人到机器迁移的数据底座。 |
| 16 | Lifting Embodied World Models | 2026 | 动作抽象 | 85 | 4.3 | 3.5 | 4.8 | 4.5 强 | NYU / BAIR signal, 2026 | S1 source-checked | 改变动作单位降低规划负担、稳长程。 |
| 17 | Cross-Entropy Method (CEM) | 1999 | 闭环规划 | 84 | 3.8 | 4.5 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 学习动力学上常用的动作序列采样优化器。 |
| 18 | MIND-V | 2026 | 预测/漂移 | 84 | 3.4 | 5.0 | 4.3 | 4.4 强 | Tsinghua University; X Square Robot; Sun Yat-sen University; HKUST | S1 source-checked | 追求长操作视频的物理合理与逻辑连贯。 |
| 19 | SimPLe | 2019 | 预测/漂移 | 84 | 3.8 | 5.0 | 4.1 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 早期 Atari 像素世界模型,误差累积明显。 |
| 20 | ReKep | 2024 | 事件验证 | 84 | 3.8 | 4.1 | 5.0 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 用可复用空间约束结构化长操作。 |
| 21 | C-SWM | 2020 | 记忆/持久性 | 84 | 3.8 | 4.3 | 4.7 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 学对象结构化动力学做规划/控制。 |
| 22 | KEMO | 2026 | 记忆/持久性 | 84 | 4.5 | 4.0 | 4.9 | 2.8 待核 | Hong Kong Embodied AI Lab; CUHK; xdof.ai; UESTC; Shanghai Jiao Tong University | S2 local first-pass | 存任务相关状态变化帧并当记忆 token 注入。 |
| 23 | OP3 | 2019 | 记忆/持久性 | 84 | 3.8 | 4.3 | 4.7 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 对象中心世界模型祖先。 |
| 24 | Psi-Zero | 2026 | 动作抽象 | 84 | 4.3 | 3.0 | 4.8 | 5.0 顶级 | USC PSI Lab; NVIDIA; WorldEngine | M local-roadmap / paper card | 长时域人形 loco-manip 策略锚点,动作块化。 |
| 25 | Puppeteer | 2025 | 动作抽象 | 84 | 4.3 | 3.5 | 4.6 | 4.6 强 | UC San Diego; New York University; Meta AI | M local-roadmap / paper card | 视觉全身人形控制的分层世界模型(低层跟踪+高层视觉)。 |
| 26 | WM for Robot Learning: A Comprehensive Survey | 2026 | 评测/指标 | 84 | 3.5 | 4.3 | 4.5 | 5.0 顶级 | NTU; UC Berkeley; Stanford; University of Tokyo; Oxford; Microsoft; ETH Zurich; Princeton; Harvard 等 | S1 source-checked | 把动作条件一致性与长时域可靠性当核心挑战。 |
| 27 | Dyna | 1990 | 预测/漂移 | 83 | 3.8 | 4.8 | 4.1 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 最早提出用模型生成的想象转移补充真实经验。 |
| 28 | PILCO | 2011 | 预测/漂移 | 83 | 3.8 | 4.8 | 4.1 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 早期高样本效率、带不确定性的基于模型控制。 |
| 29 | Behavior Trees for Robotics | 2014 | 事件验证 | 83 | 3.8 | 4.1 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 环境验证与失败恢复有用。 |
| 30 | Inner Monologue | 2022 | 事件验证 | 83 | 3.8 | 4.1 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 用环境反馈更新机器人语言计划。 |
| 31 | STRIPS / PDDL planning | 1971 | 事件验证 | 83 | 3.8 | 4.1 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 定义了事件/谓词规划的词汇。 |
| 32 | Task and Motion Planning (TAMP) | 2010 | 事件验证 | 83 | 3.8 | 4.1 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 逻辑高层+低层可行性的机器人祖先。 |
| 33 | MEM (Multi-Scale Embodied Memory) | 2026 | 记忆/持久性 | 83 | 3.4 | 4.0 | 4.9 | 5.0 顶级 | Physical Intelligence; UC Berkeley / Stanford / CMU / NYU / UT Austin / Penn / Meta / NVIDIA signal, 2026-03 | S1 source-checked | 短期视觉记忆+长期语言记忆,长任务保持记忆数十分钟。 |
| 34 | SlotFormer | 2022 | 记忆/持久性 | 83 | 3.8 | 4.0 | 4.9 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 长对象槽 rollout 基线。 |
| 35 | World-Ego Modeling | 2026 | 记忆/持久性 | 83 | 3.4 | 4.3 | 4.9 | 4.4 强 | Institute of Automation, CAS; UCAS; Zhongguancun Academy; Shanghai Jiao Tong University; Peking University | S1 source-checked | 把持久世界动态与机器人自我相机运动分开,治长程漂移。 |
| 36 | VIRAL | 2025 | 动作抽象 | 83 | 4.1 | 3.0 | 4.8 | 5.0 顶级 | NVIDIA; Carnegie Mellon University; UC Berkeley; CUHK | M local-roadmap | 视觉 sim-to-real 下的长时域人形 loco-manip。 |
| 37 | V-JEPA 2 / V-JEPA 2-AC | 2025 | 闭环规划 | 82 | 4.2 | 4.5 | 4.6 | 2.5 待核 | 待 S3 核对 | H corpus-map | 不生成像素,在抽象 latent 里做 MPC,比视频生成快约 16×。 |
| 38 | MONet / IODINE | 2019 | 记忆/持久性 | 82 | 3.8 | 4.0 | 4.7 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 早期无监督对象中心表示锚点。 |
| 39 | SAVi | 2021 | 记忆/持久性 | 82 | 3.8 | 4.0 | 4.7 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 跨视频跟踪对象。 |
| 40 | Slot Attention | 2020 | 记忆/持久性 | 82 | 3.8 | 4.0 | 4.7 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 持久对象的核心槽词汇。 |
| 41 | Slot-MPC | 2026 | 记忆/持久性 | 82 | 4.3 | 4.0 | 4.7 | 2.8 待核 | University of Bonn; Center for Robotics; Lamarr Institute | S1 source-checked | 对象槽让预测/控制更可组合,接对象持久性到预测控制。 |
| 42 | Diffusion Policy | 2023 | 动作抽象 | 82 | 4.1 | 3.0 | 4.6 | 5.0 顶级 | Columbia University / TRI / Stanford robot learning line (not rechecked here) | K known-anchor | 现代机器人操作的重要基础策略类。 |
| 43 | SPIDER | 2026 | 动作抽象 | 82 | 4.1 | 3.0 | 4.6 | 5.0 顶级 | Meta FAIR; Carnegie Mellon University | M local-roadmap | 把人类示范变成动力学可行的机器人轨迹。 |
| 44 | LAPO (Learning to Act without Actions) | 2024 | 动作抽象 | 81 | 3.9 | 3.3 | 4.6 | 4.8 顶级 | Weco AI; Meta FAIR | M local-roadmap | 让纯视频行为可用于未来策略/世界模型。 |
| 45 | Octo | 2024 | 动作抽象 | 81 | 3.8 | 3.0 | 4.8 | 5.0 顶级 | UC Berkeley / Stanford / open robotics line (known baseline; not rechecked here) | K known-anchor | 策略评测与长任务扩展基线。 |
| 46 | OpenVLA | 2024 | 动作抽象 | 81 | 3.9 | 3.0 | 4.8 | 5.0 顶级 | Stanford / UC Berkeley / open robotics line (known baseline; not rechecked here) | K known-anchor | 记忆/长时域 VLA 常用基线。 |
| 47 | RT-2 | 2023 | 动作抽象 | 81 | 4.0 | 3.0 | 4.6 | 5.0 顶级 | Google DeepMind / Robotics line (known classic; not rechecked here) | K known-anchor | 语言到动作 grounding 的关键 VLA 基线。 |
| 48 | SMP (Score-Matching Motion Priors) | 2026 | 动作抽象 | 81 | 4.0 | 3.0 | 4.6 | 5.0 顶级 | Simon Fraser University; Sony Interactive Entertainment; Stanford; Snap; NRC Canada; NVIDIA | H corpus-map / S1-like | 可复用、任务无关的动作自然度先验/奖励。 |
T2
| # | Paper | Year | 接口 | 论文打分 | 重要 | WM | LH | 组织权威 | 组织/来源信号 | 证据状态 | 一句话 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | IRIS | 2022 | 预测/漂移 | 80 | 3.8 | 5.0 | 4.1 | 2.8 待核 | academic world-model line / 2022-2023 | K known-anchor | 图像 token 世界模型做样本高效 RL。 |
| 2 | AnySkill | 2024 | 动作抽象 | 80 | 4.1 | 3.0 | 4.6 | 4.4 强 | Peking University; BIGAI; Beijing University of Posts and Telecommunications | M local-roadmap | 用语言/CLIP 奖励组合底层技能。 |
| 3 | Options framework | 1999 | 动作抽象 | 80 | 4.0 | 3.2 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 缩短有效时域的经典形式化。 |
| 4 | RT-1 | 2022 | 动作抽象 | 80 | 4.0 | 3.0 | 4.6 | 4.8 顶级 | Google Robotics / Everyday Robots line (known classic; not rechecked here) | K known-anchor | 通用机器人策略基线。 |
| 5 | WM for Robotic Manipulation: A Survey | 2026 | 评测/指标 | 80 | 3.5 | 4.3 | 4.3 | 4.2 强 | Hong Kong Polytechnic University; HIT Shenzhen; Great Bay University; CityU Hong Kong (Dongguan); HKU; NTU; KTH 等 | S1 source-checked | 给接触、幻觉、动作对齐、闭环评测定位。 |
| 6 | WorldGym / Evaluating Robot Policies in a WM | 2025 | 评测/指标 | 80 | 4.2 | 4.3 | 4.3 | 2.5 待核 | Queue, 待 S3 核对 / 2025-2026 | S1 source-checked | 一张真实初始帧即可评策略;发现系统性高估 OOD 策略。 |
| 7 | HAC | 2019 | 动作抽象 | 79 | 3.8 | 3.2 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 直击长时域稀疏奖励。 |
| 8 | HER | 2017 | 动作抽象 | 79 | 3.8 | 3.2 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 稀疏长时域目标学习的关键技巧。 |
| 9 | ULTRA | 2026 | 动作抽象 | 79 | 4.1 | 3.0 | 4.6 | 4.2 强 | University of Illinois Urbana-Champaign | M local-roadmap | 桥接稠密跟踪与稀疏自主目标。 |
| 10 | Interactive World Simulator | 2026 | 闭环规划 | 78 | 3.4 | 4.8 | 4.6 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 用稳定动作条件世界仿真训/评策略。 |
| 11 | AR Forcing | 2026 | 预测/漂移 | 78 | 3.4 | 5.0 | 4.3 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S1 source-checked | 压住长时域导航/视频生成的漂移。 |
| 12 | HWM (Hierarchical Planning, Latent WM) | 2026 | 信任时域 | 78 | 3.1 | 4.7 | 5.0 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 实证可信长度随尺度/状态变化:近处信低层、远处信高层。 |
| 13 | Worth Remembering | 2026 | 记忆/持久性 | 78 | 2.7 | 4.0 | 4.9 | 5.0 顶级 | MIT signal, 2026 | S0 queue | 只存行为有用的片段,而非所有帧。 |
| 14 | A2A (Action-to-Action Flow Matching) | 2026 | 动作抽象 | 78 | 3.9 | 3.0 | 4.6 | 4.2 强 | MARS Lab, Nanyang Technological University | M local-roadmap | 用历史动作替噪声初值,降推理延迟、稳动作块。 |
| 15 | ACT (Action Chunking Transformers) | 2023 | 动作抽象 | 78 | 4.0 | 3.0 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 改变控制时间单位的重要工作。 |
| 16 | Feudal Networks | 2017 | 动作抽象 | 78 | 3.8 | 3.2 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 高层给低层设目标的范式。 |
| 17 | HIRO | 2018 | 动作抽象 | 78 | 3.8 | 3.2 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 连续控制分层基线。 |
| 18 | LoHo-Manip | 2026 | 动作抽象 | 78 | 3.4 | 3.0 | 4.8 | 5.0 顶级 | University of California, San Diego; NVIDIA | S1 source-checked | 用进度跟踪+重规划扩展短 VLA 到长程。 |
| 19 | MimicPlay | 2023 | 动作抽象 | 78 | 3.8 | 3.0 | 4.8 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 视频条件长时域模仿,分阶段数据。 |
| 20 | Option-Critic | 2017 | 动作抽象 | 78 | 3.8 | 3.2 | 4.6 | 4.0 中高/经典 | 领域经典锚点; 组织未逐条复核 | K known-anchor | 端到端学技能与终止。 |
| 21 | pi0 | 2025 | 动作抽象 | 78 | 4.0 | 3.0 | 4.8 | 3.8 中高/经典 | Physical Intelligence / industry foundation-policy line (known baseline; not rechecked here) | K known-anchor | 工业相关长操作 VLA 基线。 |
| 22 | WorldEval | 2025 | 评测/指标 | 78 | 4.0 | 4.3 | 4.3 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 强弱策略在生成视频评测里排序与真实一致;需 latent action 才动作可控。 |
| 23 | dWorldEval | 2026 | 评测/指标 | 77 | 4.0 | 4.0 | 4.3 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 把"成功"内化为模型自预测的进度信号,事件成第一类公民。 |
| 24 | Compositional Planning with Jumpy WM | 2026 | 闭环规划 | 76 | 3.1 | 4.8 | 4.6 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 跨时间尺度一致,把已训策略当时间扩展动作来拼。 |
| 25 | Latent Geometry (Amortizing Planning) | 2026 | 闭环规划 | 76 | 3.1 | 4.5 | 4.8 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 把在线搜索摊销成前馈映射,省 100×。 |
| 26 | LCDrive (Latent CoT WM) | 2026 | 闭环规划 | 76 | 3.1 | 4.8 | 4.6 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 把推理放进动作对齐的 latent,而非自然语言 CoT。 |
| 27 | DreamerPro / policy-shaped prediction | 2025 | 预测/漂移 | 76 | 3.4 | 4.8 | 4.1 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 只预测对控制重要的、忽略干扰。 |
| 28 | Persistent Robot World Models | 2026 | 预测/漂移 | 76 | 3.1 | 5.0 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 把训练目标从单步精度移到自回归长时域表现,治漂移。 |
| 29 | Ego-Vision WM for Humanoid Contact | 2025 | 信任时域 | 76 | 2.9 | 4.7 | 5.0 | 2.5 待核 | 待 S3 核对 | H corpus-map | 与接触状态信任直接相关。 |
| 30 | Cortex 2.0 | 2026 | 事件验证 | 76 | 3.1 | 4.4 | 5.0 | 2.5 待核 | industrial manipulation line, 待 S3 核对 / 2026 | H corpus-map / S1-like | 给反应式 VLA 加未来评估,提长程可靠性。 |
| 31 | PALM | 2026 | 事件验证 | 76 | 3.4 | 3.9 | 5.0 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 用结构化未来可供性推理做长 VLA。 |
| 32 | FOCUS | 2025 | 记忆/持久性 | 76 | 3.4 | 4.3 | 4.7 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 近期对象中心世界模型/控制线。 |
| 33 | Keyframe-Chaining VLA | 2026 | 记忆/持久性 | 76 | 3.4 | 4.0 | 4.9 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S1 source-checked | 针对非马尔可夫长操作,检索历史关键帧。 |
| 34 | EgoHumanoid | 2026 | 动作抽象 | 76 | 4.1 | 3.0 | 4.8 | 2.8 待核 | University of Hong Kong; Shanghai Innovation Institute; Beihang University | M local-roadmap | 用无机器人人类示范扩展长任务。 |
| 35 | WorldArena | 2026 | 评测/指标 | 76 | 3.9 | 4.0 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 量化 perception–functionality gap:高画质≠强具身能力。 |
| 36 | WMPO | 2025 | 闭环规划 | 75 | 2.9 | 4.8 | 4.6 | 2.5 待核 | 待 S3 核对 | H corpus-map | 无需真机交互,坚持像素级预测复用预训练视觉,涌现自我纠错。 |
| 37 | Horizon Generalization in RL | 2025 | 信任时域 | 75 | 2.9 | 4.4 | 5.0 | 2.5 待核 | 待 S3 核对 | H corpus-map | 近处训好+不变性→远目标自动可达,不需长 rollout。 |
| 38 | TD-Flow | 2025 | 信任时域 | 75 | 2.9 | 4.4 | 5.0 | 2.5 待核 | 待 S3 核对 | H corpus-map | 靠降梯度方差,把可信预测从 20–50 步推到 5× 长。 |
| 39 | CABTO | 2026 | 事件验证 | 74 | 3.1 | 4.1 | 4.8 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 上下文感知的符号/反应式任务执行。 |
| 40 | AMP | 2021 | 动作抽象 | 74 | 3.9 | 3.0 | 4.6 | 2.8 待核 | DeepMimic / adversarial motion prior 经典线 | M local-roadmap | 经典动作自然度先验。 |
| 41 | GMR (General Motion Retargeting) | 2025 | 动作抽象 | 74 | 2.9 | 3.0 | 4.8 | 5.0 顶级 | Stanford University | H corpus-map | 参考轨迹不可行会让长序列失败。 |
| 42 | GR00T | 2025 | 动作抽象 | 74 | 2.9 | 3.0 | 4.8 | 5.0 顶级 | NVIDIA humanoid foundation-policy line | H corpus-map | 人形长时域策略的工业信号。 |
| 43 | In-context World Models | 2026 | 序列WM | 74 | 3.2 | 5.0 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 换环境=换上下文,一个序列模型+不同 context=不同世界。 |
| 44 | WorldVLA / RynnVLA-002 | 2026 | 序列WM | 74 | 3.2 | 5.0 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 世界模型与策略是同一条 token 流的两种读法。 |
| 45 | What Drives Success in JEPA Planning | 2025 | 闭环规划 | 73 | 2.9 | 4.5 | 4.6 | 2.5 待核 | 待 S3 核对 | H corpus-map | 表示/规划接口审计候选。 |
| 46 | ENACT | 2025 | 记忆/持久性 | 73 | 2.9 | 4.3 | 4.7 | 2.5 待核 | 待 S3 核对 | H corpus-map | 用排序探针测对象持久性:不生成也能查"有没有世界模型"。 |
| 47 | Language-Guided Object-Centric WM | 2025 | 记忆/持久性 | 73 | 2.9 | 4.3 | 4.7 | 2.5 待核 | 待 S3 核对 | H corpus-map | 语言目标到对象中心 MPC 的桥。 |
| 48 | Astra | 2026 | 序列WM | 73 | 3.2 | 4.8 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 时间维自回归 + 帧内扩散去噪融合,因果与画质兼得。 |
| 49 | Genie 3 | 2025 | 序列WM | 73 | 3.0 | 5.0 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | 空间一致性靠自回归"涌现"而非显式 3D(参数为二手)。 |
| 50 | Improving Transformer World Models | 2025 | 序列WM | 73 | 3.0 | 5.0 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | token 化 TWM 在 Craftax 上超 DreamerV3。 |
| 51 | NextLat | 2026 | 序列WM | 73 | 3.2 | 4.8 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | latent 收敛到 belief state,给 Transformer 注入循环归纳偏置。 |
| 52 | PAN | 2025 | 序列WM | 73 | 3.0 | 4.8 | 4.1 | 2.5 待核 | 待 S3 核对 | H corpus-map | 用语言驱动"脑内思想实验",长程可交互。 |
| 53 | SSM–Transformer Hybrid WM | 2025 | 序列WM | 73 | 3.0 | 5.0 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | 兼顾流式效率与全局回忆,缓解二次注意力成本。 |
| 54 | RoboWM-Bench | 2026 | 评测/指标 | 73 | 3.2 | 4.3 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 把生成视频转成可执行动作去验:视觉合理≠可执行。 |
| 55 | WorldLens (Driving WM eval) | 2026 | 评测/指标 | 73 | 3.2 | 4.3 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 视觉真实≠行为真实;大规模训练提画质却损害任务对齐。 |
| 56 | Genie Envisioner | 2025 | 预测/漂移 | 72 | 2.7 | 5.0 | 4.1 | 2.5 待核 | 待 S3 核对 | S0 queue | 近期视频/世界基础模型线,需细审。 |
| 57 | IRASim | 2025 | 预测/漂移 | 72 | 2.7 | 5.0 | 4.1 | 2.5 待核 | 待 S3 核对 | S0 queue | 动作条件视频生成做机器人数据/评测。 |
| 58 | RoboDreamer | 2025 | 预测/漂移 | 72 | 2.7 | 5.0 | 4.1 | 2.5 待核 | 待 S3 核对 | S0 queue | 操作的视频WM底座候选。 |
| 59 | IPR-1 (Interactive Physical Reasoner) | 2025 | 事件验证 | 72 | 2.9 | 4.1 | 4.8 | 2.5 待核 | 待 S3 核对 | H corpus-map | 会预测≠懂物理,把预测绑到物理动作编码而非像素相似度。 |
| 60 | RAVEN | 2025 | 记忆/持久性 | 72 | 2.9 | 4.0 | 4.9 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | H corpus-map | 长时域机器人 QA 与导航的具身情景记忆。 |
| 61 | Masked Latent Transformer (Δ-IRIS 系) | 2025 | 序列WM | 72 | 3.0 | 4.8 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | 缩短 token 序列、训练提速一个量级。 |
| 62 | RELIC | 2025 | 序列WM | 72 | 3.0 | 4.8 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | 把几何线索显式注入序列,在序列框架里拿回 3D 一致性。 |
| 63 | Self Forcing | 2025 | 序列WM | 72 | 3.0 | 4.8 | 3.9 | 2.5 待核 | 待 S3 核对 | H corpus-map | 弥合自回归视频的 exposure bias,单卡实时且匹配扩散质量。 |
| 64 | GWM-Robotics (Runway) | 2025 | 评测/指标 | 72 | 3.0 | 4.3 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map | 确立"评 WM = 它对策略的排序与真实差多少"的产业共识。 |
| 65 | Scalable Policy Evaluation with Video WMs | 2025 | 评测/指标 | 72 | 3.0 | 4.3 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map | 复用互联网视频,绕开昂贵成对 video-action 数据。 |
T3
| # | Paper | Year | 接口 | 论文打分 | 重要 | WM | LH | 组织权威 | 组织/来源信号 | 证据状态 | 一句话 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Evaluating Gemini Robotics in Veo | 2026 | 评测/指标 | 71 | 3.2 | 4.0 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 1600+ 真实评测校准,目标定位为排序准确而非绝对成功率。 |
| 2 | Prediction over Reconstruction | 2026 | 评测/指标 | 71 | 3.2 | 4.0 | 4.3 | 2.5 待核 | 待 S3 核对 | H corpus-map / S1-like | 机制级结论:重建保真度与动作相关性在表示层正交。 |
| 3 | Training Diffusion Policies with Long Context | 2026 | 记忆/持久性 | 70 | 2.7 | 3.8 | 4.9 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S0 queue | 与历史长度/持久性直接相关,避免重复失败动作。 |
| 4 | Long-VLA | 2026 | 动作抽象 | 70 | 3.4 | 3.0 | 4.8 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S1 source-checked | 端到端设计的长时域 VLA。 |
| 5 | WholeBodyVLA / BodyVLA | 2026 | 动作抽象 | 69 | 3.4 | 3.0 | 4.6 | 2.5 待核 | 待 S3 核对 | S1 source-checked | 从无动作第一视角视频学统一潜动作。 |
| 6 | Anticipation-VLA | 2026 | 动作抽象 | 65 | 2.7 | 3.0 | 4.8 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S0 queue | 长操作的子目标生成候选。 |
| 7 | VERA | 2026 | 动作抽象 | 64 | 2.7 | 3.0 | 4.6 | 2.5 待核 | Queue, 待 S3 核对 / 2026 | S0 queue | 高层视频规划与低层执行解耦。 |
| 8 | Anthropic: harnesses for long-running agents | 2026 | LLM类比 | 64 | 2.8 | 1.5 | 4.4 | 4.8 顶级 | Anthropic engineering guidance | S1 source-checked | 多小时/天 agent 的外部验证与跨会话交接。 |
| 9 | Long-running Claude for science | 2026 | LLM类比 | 64 | 2.8 | 1.5 | 4.4 | 4.8 顶级 | Anthropic research/engineering signal | S1 source-checked | harness/oracle 比上下文长度更重要。 |
| 10 | Mage (Memory as Execution State) | 2026 | LLM类比 | 64 | 2.8 | 1.5 | 4.4 | 5.0 顶级 | UCLA; Carnegie Mellon University; Apple | S1 source-checked | 把记忆当执行状态数据结构,隔离错误级联。 |
| 11 | Odysseys | 2026 | LLM类比 | 64 | 2.8 | 1.5 | 4.4 | 5.0 顶级 | Carnegie Mellon University signal | S1 source-checked | 浏览器轨迹作为长时域有状态规划。 |
| 12 | OpenAI Codex long-horizon guide | 2026 | LLM类比 | 64 | 2.8 | 1.5 | 4.4 | 5.0 顶级 | OpenAI official developer guide | S1 source-checked | 长编码任务需要持久工件与可复现验证。 |
T4
| # | Paper | Year | 接口 | 论文打分 | 重要 | WM | LH | 组织权威 | 组织/来源信号 | 证据状态 | 一句话 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | AutoScientists / AutoLab | 2026 | LLM类比 | 58 | 2.8 | 1.5 | 4.4 | 2.8 待核 | Academic arXiv line; multi-agent science workflow | S1 source-checked | 长研究轨迹的编排、分工与迭代。 |
| 2 | SWE-Marathon | 2026 | LLM类比 | 58 | 2.8 | 1.5 | 4.4 | 2.8 待核 | Multi-institution benchmark paper | S1 source-checked | 长工具调用轨迹+多层隐藏验证。 |
| 3 | Graph-of-Skills | 2026 | LLM类比 | 53 | 2.1 | 1.5 | 4.4 | 2.8 待核 | Academic arXiv line | S0 queue | 长任务需要流程依赖跟踪,而非纯语义检索。 |