Long Horizon:152 篇世界模型论文阅读梯队

June 2026

一份面向 robot world model、long-horizon planning、trust horizon、event verification 和 embodied memory 的阅读优先级表。

这是一份面向 long-horizon robot world model 的阅读优先级表。它把 152 个 world-model、robot policy、VLA、humanoid、memory 与 LLM-agent 类比条目放到同一个梯队里,方便判断哪些论文值得先精读,哪些适合按问题回查。

这张表服务一个具体阅读目标:如果接下来要围绕 robot world model 的长时程可靠性、闭环规划、trust horizon、event verification 和 memory 继续往下读,应该先把哪些工作放到桌面上。分数表示阅读优先级,不代表论文质量的最终排名,也不构成领域权威榜单。

读表方式

梯队定义

梯队读法判据数量
T0立刻精读,做 paper card / 复现或实验设计直接引用score range by rubric24
T1优先精读,围绕一个问题读方法图、主实验和消融score range by rubric48
T2问题驱动阅读,读 abstract、方法骨架、主表和局限score range by rubric65
T3背景/补课/对照,按概念需要 skimscore range by rubric12
T4旁支或类比,暂不挤占机器人 world-model 主线时间score range by rubric3

接口覆盖

接口数量
闭环规划19
预测/漂移21
信任时域12
事件验证16
记忆/持久性20
动作抽象33
序列WM11
评测/指标12
LLM类比8

一眼优先级

如果只想先读出判断力,先读 T0;如果要补完整地图,再顺着 T1/T2 按接口补。T3/T4 是有用的背景或类比,但不应该打断当前主线。

T0

#PaperYear接口论文打分重要WMLH组织权威组织/来源信号证据状态一句话
1GRASP2026闭环规划974.94.84.85.0 顶级University of California, Berkeley; Meta FAIR; New York UniversityS2/S1 local source-checked用虚拟中间状态和梯度规划,直接暴露并缓解 planner 穿过 learned dynamics 时的长时域脆性。
2TD-MPC2022闭环规划955.04.54.84.6 强Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线M local-roadmap / paper card你的算法主干:短时域规划+终端价值。
3PRISM-WM2026预测/漂移955.05.04.34.4 强Beijing Institute of Technology; Peking University; BIGAI / NLCo Lab; Mingwei Li et al.M local-roadmap你的本地目标:混合/接触动力学可能有不同信任时域。
4Closing the Train-Test Gap (gradient planning)2025闭环规划944.84.84.64.5 强Columbia University; New York UniversityS1 source-checked让世界模型在梯度规划诱导的分布下可用。
5Cosmos Policy2026闭环规划944.64.84.65.0 顶级NVIDIA; Stanford UniversityM local-roadmap / paper card用 latent frame 注入,一个视频模型当策略+世界+价值。
6WEAVER2026预测/漂移944.85.04.15.0 顶级Mila / Universite de Montreal; Carnegie Mellon University; McGill UniversityS2 local first-pass保真+一致+效率同时拿,与真实成功率 0.87 相关。
7Variable-Length Latent World Models2026信任时域944.64.75.04.4 强Peking University; Amazon AGI SF LabS2 local first-pass直接质疑固定 MPC 时域。
8DreamZero (World Action Models)2026闭环规划914.14.84.65.0 顶级NVIDIAS1 source-checked世界-动作模型本身就是零样本策略,7Hz 闭环。
9MuZero2020闭环规划914.44.54.65.0 顶级DeepMind (known classic; not rechecked here)K known-anchor不重建观测也能用任务相关潜动力学做规划。
10TD-MPC22024闭环规划914.54.54.64.6 强Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线K known-anchorNewt/Puppeteer 的直系祖先。
11DreamerV32023预测/漂移914.45.04.15.0 顶级DeepMind / Google Research line (known classic; not rechecked here)K known-anchor强力通用世界模型 RL 基线。
12PointWorld2026预测/漂移914.45.04.15.0 顶级Stanford University; NVIDIAS2 local first-pass预测动作条件下的 3D 场景流,绕开像素、可接 MPC。
13NEUBAY2026信任时域914.44.45.04.5 强Mila; Universite de Montreal; McGill UniversityS1 source-checked离线无需显式保守:长 rollout 本身压住价值高估。
14PETS2018信任时域914.14.45.05.0 顶级UC Berkeley / model-based RL classic line (not rechecked here)K known-anchor不确定性感知基于模型控制的核心基线。
15Universal Horizon Models2026信任时域914.54.45.04.2 强Seoul National UniversityS2 local first-pass把 horizon 本身做成离线价值学习的一等变量。
16H-WM2026事件验证914.34.45.04.5 强Huawei Noah's Ark Lab; University of Toronto; University of British Columbia; McGill UniversityS1 source-checked用符号/逻辑状态当长时域抗漂移的检查点。
17Newt2026闭环规划904.24.84.64.6 强UC San Diego; Nicklas Hansen, Hao Su, Xiaolong WangM local-roadmap测试 TD-MPC 式世界模型能否跨 200 连续控制任务在线 RL。
18MBPO2019预测/漂移904.24.84.35.0 顶级UC Berkeley / model-based RL classic line (not rechecked here)K known-anchor"短想象 rollout 避免长程误差累积"的经典论证。
19Dreamer2020预测/漂移894.24.84.15.0 顶级DeepMind / Google Research line (known classic; not rechecked here)K known-anchor在想象的潜 rollout 中学行为。
20EV-WM (Event-Verified WM)2026事件验证894.84.45.02.8 待核AI Lab, Country Garden Services Group; Fudan University; Omni AIS2 local first-pass直接给任务进度/语义一致性/可行性打分,而非只看像素。
21EventVLA2026记忆/持久性894.54.04.94.4 强USTC; Shanghai AI Lab; SJTU; Dalian University of Technology; Huawei; HKU; Tsinghua University; Peking UniversityS2 local first-pass遮挡/不可观时保住任务证据。
22MPC / 滚动时域控制1980闭环规划884.24.54.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchorTD-MPC/PETS/MPPI 等背后的控制接口。
23PlaNet2019预测/漂移884.14.84.15.0 顶级Google DeepMind line (not rechecked here)K known-anchor把规划从像素搬进紧凑潜状态。
24WAV (World Action Verifier)2026事件验证864.64.44.82.5 待核待 S3 核对H corpus-map / S1-like拆成可独立验证的因子;验证比生成便宜,在欠探索区自纠。

T1

#PaperYear接口论文打分重要WMLH组织权威组织/来源信号证据状态一句话
1Deep Visual Foresight2017预测/漂移873.85.04.15.0 顶级UC Berkeley robot learning line (not rechecked here)K known-anchor经典机器人视频预测规划,视频世界模型规划的祖先。
2DreamerV22021预测/漂移873.84.84.35.0 顶级DeepMind / Google Research line (known classic; not rechecked here)K known-anchor视觉控制上更强的长想象行为学习。
3Visual MPC / DNA-CDNA-SNA2018预测/漂移873.85.04.15.0 顶级UC Berkeley robot learning line (not rechecked here)K known-anchor暴露了纯像素 rollout 用于操作的早期局限。
4COMBO2021信任时域863.84.45.04.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor不确定性/悲观 vs 自适应信任的有用对照。
5MOPO2020信任时域863.84.45.04.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor离线 MBRL 对分布漂移下模型误差的回应。
6MOReL2020信任时域863.84.45.04.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor把不确定区域当危险处理的离线策略学习。
7RAMBO2022信任时域863.84.45.04.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor让离线学到的模型更鲁棒。
8SayCan2022事件验证863.84.14.85.0 顶级Google Robotics / DeepMind style line (not rechecked here)K known-anchor桥接语言计划与物理可行。
9VoxPoser2023事件验证863.84.14.85.0 顶级Stanford / NVIDIA / robotics line (not rechecked here)K known-anchor把语言约束变成空间价值图。
10Mem-World2026记忆/持久性864.54.34.92.8 待核Dalian University of Technology; Samsung R&D Institute China-BeijingS2 local first-pass记忆该怎么索引(几何/腕部视角)比存多少更重要。
11MPPI2016闭环规划853.94.54.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor机器人里重要的采样式 MPC 基线。
12tau0-WM2026闭环规划854.24.84.62.8 待核Shanghai Innovation Institute; AGIBOT FinchS1 source-checked想象作为按需调用的计算,latent 默认、要才渲染。
13Agentic World Modeling2026事件验证853.44.44.85.0 顶级Google DeepMind / academic collaboration signal, 2026-06S1 source-checked从被动预测走向会因预测失败而改写自己的 agent。
14Code as Policies2022事件验证853.84.14.84.8 顶级Google Robotics line (not rechecked here)K known-anchor计划可检查/可执行,物理验证仍在外部。
15HumanNet2026记忆/持久性854.13.84.94.4 强Peking University / DAGroup; SimpleSilicon Innovation TeamM local-roadmap长行为与人到机器迁移的数据底座。
16Lifting Embodied World Models2026动作抽象854.33.54.84.5 强NYU / BAIR signal, 2026S1 source-checked改变动作单位降低规划负担、稳长程。
17Cross-Entropy Method (CEM)1999闭环规划843.84.54.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor学习动力学上常用的动作序列采样优化器。
18MIND-V2026预测/漂移843.45.04.34.4 强Tsinghua University; X Square Robot; Sun Yat-sen University; HKUSTS1 source-checked追求长操作视频的物理合理与逻辑连贯。
19SimPLe2019预测/漂移843.85.04.14.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor早期 Atari 像素世界模型,误差累积明显。
20ReKep2024事件验证843.84.15.04.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor用可复用空间约束结构化长操作。
21C-SWM2020记忆/持久性843.84.34.74.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor学对象结构化动力学做规划/控制。
22KEMO2026记忆/持久性844.54.04.92.8 待核Hong Kong Embodied AI Lab; CUHK; xdof.ai; UESTC; Shanghai Jiao Tong UniversityS2 local first-pass存任务相关状态变化帧并当记忆 token 注入。
23OP32019记忆/持久性843.84.34.74.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor对象中心世界模型祖先。
24Psi-Zero2026动作抽象844.33.04.85.0 顶级USC PSI Lab; NVIDIA; WorldEngineM local-roadmap / paper card长时域人形 loco-manip 策略锚点,动作块化。
25Puppeteer2025动作抽象844.33.54.64.6 强UC San Diego; New York University; Meta AIM local-roadmap / paper card视觉全身人形控制的分层世界模型(低层跟踪+高层视觉)。
26WM for Robot Learning: A Comprehensive Survey2026评测/指标843.54.34.55.0 顶级NTU; UC Berkeley; Stanford; University of Tokyo; Oxford; Microsoft; ETH Zurich; Princeton; Harvard 等S1 source-checked把动作条件一致性与长时域可靠性当核心挑战。
27Dyna1990预测/漂移833.84.84.14.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor最早提出用模型生成的想象转移补充真实经验。
28PILCO2011预测/漂移833.84.84.14.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor早期高样本效率、带不确定性的基于模型控制。
29Behavior Trees for Robotics2014事件验证833.84.14.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor环境验证与失败恢复有用。
30Inner Monologue2022事件验证833.84.14.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor用环境反馈更新机器人语言计划。
31STRIPS / PDDL planning1971事件验证833.84.14.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor定义了事件/谓词规划的词汇。
32Task and Motion Planning (TAMP)2010事件验证833.84.14.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor逻辑高层+低层可行性的机器人祖先。
33MEM (Multi-Scale Embodied Memory)2026记忆/持久性833.44.04.95.0 顶级Physical Intelligence; UC Berkeley / Stanford / CMU / NYU / UT Austin / Penn / Meta / NVIDIA signal, 2026-03S1 source-checked短期视觉记忆+长期语言记忆,长任务保持记忆数十分钟。
34SlotFormer2022记忆/持久性833.84.04.94.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor长对象槽 rollout 基线。
35World-Ego Modeling2026记忆/持久性833.44.34.94.4 强Institute of Automation, CAS; UCAS; Zhongguancun Academy; Shanghai Jiao Tong University; Peking UniversityS1 source-checked把持久世界动态与机器人自我相机运动分开,治长程漂移。
36VIRAL2025动作抽象834.13.04.85.0 顶级NVIDIA; Carnegie Mellon University; UC Berkeley; CUHKM local-roadmap视觉 sim-to-real 下的长时域人形 loco-manip。
37V-JEPA 2 / V-JEPA 2-AC2025闭环规划824.24.54.62.5 待核待 S3 核对H corpus-map不生成像素,在抽象 latent 里做 MPC,比视频生成快约 16×。
38MONet / IODINE2019记忆/持久性823.84.04.74.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor早期无监督对象中心表示锚点。
39SAVi2021记忆/持久性823.84.04.74.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor跨视频跟踪对象。
40Slot Attention2020记忆/持久性823.84.04.74.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor持久对象的核心槽词汇。
41Slot-MPC2026记忆/持久性824.34.04.72.8 待核University of Bonn; Center for Robotics; Lamarr InstituteS1 source-checked对象槽让预测/控制更可组合,接对象持久性到预测控制。
42Diffusion Policy2023动作抽象824.13.04.65.0 顶级Columbia University / TRI / Stanford robot learning line (not rechecked here)K known-anchor现代机器人操作的重要基础策略类。
43SPIDER2026动作抽象824.13.04.65.0 顶级Meta FAIR; Carnegie Mellon UniversityM local-roadmap把人类示范变成动力学可行的机器人轨迹。
44LAPO (Learning to Act without Actions)2024动作抽象813.93.34.64.8 顶级Weco AI; Meta FAIRM local-roadmap让纯视频行为可用于未来策略/世界模型。
45Octo2024动作抽象813.83.04.85.0 顶级UC Berkeley / Stanford / open robotics line (known baseline; not rechecked here)K known-anchor策略评测与长任务扩展基线。
46OpenVLA2024动作抽象813.93.04.85.0 顶级Stanford / UC Berkeley / open robotics line (known baseline; not rechecked here)K known-anchor记忆/长时域 VLA 常用基线。
47RT-22023动作抽象814.03.04.65.0 顶级Google DeepMind / Robotics line (known classic; not rechecked here)K known-anchor语言到动作 grounding 的关键 VLA 基线。
48SMP (Score-Matching Motion Priors)2026动作抽象814.03.04.65.0 顶级Simon Fraser University; Sony Interactive Entertainment; Stanford; Snap; NRC Canada; NVIDIAH corpus-map / S1-like可复用、任务无关的动作自然度先验/奖励。

T2

#PaperYear接口论文打分重要WMLH组织权威组织/来源信号证据状态一句话
1IRIS2022预测/漂移803.85.04.12.8 待核academic world-model line / 2022-2023K known-anchor图像 token 世界模型做样本高效 RL。
2AnySkill2024动作抽象804.13.04.64.4 强Peking University; BIGAI; Beijing University of Posts and TelecommunicationsM local-roadmap用语言/CLIP 奖励组合底层技能。
3Options framework1999动作抽象804.03.24.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor缩短有效时域的经典形式化。
4RT-12022动作抽象804.03.04.64.8 顶级Google Robotics / Everyday Robots line (known classic; not rechecked here)K known-anchor通用机器人策略基线。
5WM for Robotic Manipulation: A Survey2026评测/指标803.54.34.34.2 强Hong Kong Polytechnic University; HIT Shenzhen; Great Bay University; CityU Hong Kong (Dongguan); HKU; NTU; KTH 等S1 source-checked给接触、幻觉、动作对齐、闭环评测定位。
6WorldGym / Evaluating Robot Policies in a WM2025评测/指标804.24.34.32.5 待核Queue, 待 S3 核对 / 2025-2026S1 source-checked一张真实初始帧即可评策略;发现系统性高估 OOD 策略。
7HAC2019动作抽象793.83.24.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor直击长时域稀疏奖励。
8HER2017动作抽象793.83.24.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor稀疏长时域目标学习的关键技巧。
9ULTRA2026动作抽象794.13.04.64.2 强University of Illinois Urbana-ChampaignM local-roadmap桥接稠密跟踪与稀疏自主目标。
10Interactive World Simulator2026闭环规划783.44.84.62.5 待核待 S3 核对S1 source-checked用稳定动作条件世界仿真训/评策略。
11AR Forcing2026预测/漂移783.45.04.32.5 待核Queue, 待 S3 核对 / 2026S1 source-checked压住长时域导航/视频生成的漂移。
12HWM (Hierarchical Planning, Latent WM)2026信任时域783.14.75.02.5 待核待 S3 核对H corpus-map / S1-like实证可信长度随尺度/状态变化:近处信低层、远处信高层。
13Worth Remembering2026记忆/持久性782.74.04.95.0 顶级MIT signal, 2026S0 queue只存行为有用的片段,而非所有帧。
14A2A (Action-to-Action Flow Matching)2026动作抽象783.93.04.64.2 强MARS Lab, Nanyang Technological UniversityM local-roadmap用历史动作替噪声初值,降推理延迟、稳动作块。
15ACT (Action Chunking Transformers)2023动作抽象784.03.04.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor改变控制时间单位的重要工作。
16Feudal Networks2017动作抽象783.83.24.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor高层给低层设目标的范式。
17HIRO2018动作抽象783.83.24.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor连续控制分层基线。
18LoHo-Manip2026动作抽象783.43.04.85.0 顶级University of California, San Diego; NVIDIAS1 source-checked用进度跟踪+重规划扩展短 VLA 到长程。
19MimicPlay2023动作抽象783.83.04.84.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor视频条件长时域模仿,分阶段数据。
20Option-Critic2017动作抽象783.83.24.64.0 中高/经典领域经典锚点; 组织未逐条复核K known-anchor端到端学技能与终止。
21pi02025动作抽象784.03.04.83.8 中高/经典Physical Intelligence / industry foundation-policy line (known baseline; not rechecked here)K known-anchor工业相关长操作 VLA 基线。
22WorldEval2025评测/指标784.04.34.32.5 待核待 S3 核对S1 source-checked强弱策略在生成视频评测里排序与真实一致;需 latent action 才动作可控。
23dWorldEval2026评测/指标774.04.04.32.5 待核待 S3 核对S1 source-checked把"成功"内化为模型自预测的进度信号,事件成第一类公民。
24Compositional Planning with Jumpy WM2026闭环规划763.14.84.62.5 待核待 S3 核对H corpus-map / S1-like跨时间尺度一致,把已训策略当时间扩展动作来拼。
25Latent Geometry (Amortizing Planning)2026闭环规划763.14.54.82.5 待核待 S3 核对H corpus-map / S1-like把在线搜索摊销成前馈映射,省 100×。
26LCDrive (Latent CoT WM)2026闭环规划763.14.84.62.5 待核待 S3 核对H corpus-map / S1-like把推理放进动作对齐的 latent,而非自然语言 CoT。
27DreamerPro / policy-shaped prediction2025预测/漂移763.44.84.12.5 待核待 S3 核对S1 source-checked只预测对控制重要的、忽略干扰。
28Persistent Robot World Models2026预测/漂移763.15.04.32.5 待核待 S3 核对H corpus-map / S1-like把训练目标从单步精度移到自回归长时域表现,治漂移。
29Ego-Vision WM for Humanoid Contact2025信任时域762.94.75.02.5 待核待 S3 核对H corpus-map与接触状态信任直接相关。
30Cortex 2.02026事件验证763.14.45.02.5 待核industrial manipulation line, 待 S3 核对 / 2026H corpus-map / S1-like给反应式 VLA 加未来评估,提长程可靠性。
31PALM2026事件验证763.43.95.02.5 待核待 S3 核对S1 source-checked用结构化未来可供性推理做长 VLA。
32FOCUS2025记忆/持久性763.44.34.72.5 待核待 S3 核对S1 source-checked近期对象中心世界模型/控制线。
33Keyframe-Chaining VLA2026记忆/持久性763.44.04.92.5 待核Queue, 待 S3 核对 / 2026S1 source-checked针对非马尔可夫长操作,检索历史关键帧。
34EgoHumanoid2026动作抽象764.13.04.82.8 待核University of Hong Kong; Shanghai Innovation Institute; Beihang UniversityM local-roadmap用无机器人人类示范扩展长任务。
35WorldArena2026评测/指标763.94.04.32.5 待核待 S3 核对H corpus-map / S1-like量化 perception–functionality gap:高画质≠强具身能力。
36WMPO2025闭环规划752.94.84.62.5 待核待 S3 核对H corpus-map无需真机交互,坚持像素级预测复用预训练视觉,涌现自我纠错。
37Horizon Generalization in RL2025信任时域752.94.45.02.5 待核待 S3 核对H corpus-map近处训好+不变性→远目标自动可达,不需长 rollout。
38TD-Flow2025信任时域752.94.45.02.5 待核待 S3 核对H corpus-map靠降梯度方差,把可信预测从 20–50 步推到 5× 长。
39CABTO2026事件验证743.14.14.82.5 待核待 S3 核对H corpus-map / S1-like上下文感知的符号/反应式任务执行。
40AMP2021动作抽象743.93.04.62.8 待核DeepMimic / adversarial motion prior 经典线M local-roadmap经典动作自然度先验。
41GMR (General Motion Retargeting)2025动作抽象742.93.04.85.0 顶级Stanford UniversityH corpus-map参考轨迹不可行会让长序列失败。
42GR00T2025动作抽象742.93.04.85.0 顶级NVIDIA humanoid foundation-policy lineH corpus-map人形长时域策略的工业信号。
43In-context World Models2026序列WM743.25.03.92.5 待核待 S3 核对H corpus-map / S1-like换环境=换上下文,一个序列模型+不同 context=不同世界。
44WorldVLA / RynnVLA-0022026序列WM743.25.03.92.5 待核待 S3 核对H corpus-map / S1-like世界模型与策略是同一条 token 流的两种读法。
45What Drives Success in JEPA Planning2025闭环规划732.94.54.62.5 待核待 S3 核对H corpus-map表示/规划接口审计候选。
46ENACT2025记忆/持久性732.94.34.72.5 待核待 S3 核对H corpus-map用排序探针测对象持久性:不生成也能查"有没有世界模型"。
47Language-Guided Object-Centric WM2025记忆/持久性732.94.34.72.5 待核待 S3 核对H corpus-map语言目标到对象中心 MPC 的桥。
48Astra2026序列WM733.24.83.92.5 待核待 S3 核对H corpus-map / S1-like时间维自回归 + 帧内扩散去噪融合,因果与画质兼得。
49Genie 32025序列WM733.05.03.92.5 待核待 S3 核对H corpus-map空间一致性靠自回归"涌现"而非显式 3D(参数为二手)。
50Improving Transformer World Models2025序列WM733.05.03.92.5 待核待 S3 核对H corpus-maptoken 化 TWM 在 Craftax 上超 DreamerV3。
51NextLat2026序列WM733.24.83.92.5 待核待 S3 核对H corpus-map / S1-likelatent 收敛到 belief state,给 Transformer 注入循环归纳偏置。
52PAN2025序列WM733.04.84.12.5 待核待 S3 核对H corpus-map用语言驱动"脑内思想实验",长程可交互。
53SSM–Transformer Hybrid WM2025序列WM733.05.03.92.5 待核待 S3 核对H corpus-map兼顾流式效率与全局回忆,缓解二次注意力成本。
54RoboWM-Bench2026评测/指标733.24.34.32.5 待核待 S3 核对H corpus-map / S1-like把生成视频转成可执行动作去验:视觉合理≠可执行。
55WorldLens (Driving WM eval)2026评测/指标733.24.34.32.5 待核待 S3 核对H corpus-map / S1-like视觉真实≠行为真实;大规模训练提画质却损害任务对齐。
56Genie Envisioner2025预测/漂移722.75.04.12.5 待核待 S3 核对S0 queue近期视频/世界基础模型线,需细审。
57IRASim2025预测/漂移722.75.04.12.5 待核待 S3 核对S0 queue动作条件视频生成做机器人数据/评测。
58RoboDreamer2025预测/漂移722.75.04.12.5 待核待 S3 核对S0 queue操作的视频WM底座候选。
59IPR-1 (Interactive Physical Reasoner)2025事件验证722.94.14.82.5 待核待 S3 核对H corpus-map会预测≠懂物理,把预测绑到物理动作编码而非像素相似度。
60RAVEN2025记忆/持久性722.94.04.92.5 待核Queue, 待 S3 核对 / 2026H corpus-map长时域机器人 QA 与导航的具身情景记忆。
61Masked Latent Transformer (Δ-IRIS 系)2025序列WM723.04.83.92.5 待核待 S3 核对H corpus-map缩短 token 序列、训练提速一个量级。
62RELIC2025序列WM723.04.83.92.5 待核待 S3 核对H corpus-map把几何线索显式注入序列,在序列框架里拿回 3D 一致性。
63Self Forcing2025序列WM723.04.83.92.5 待核待 S3 核对H corpus-map弥合自回归视频的 exposure bias,单卡实时且匹配扩散质量。
64GWM-Robotics (Runway)2025评测/指标723.04.34.32.5 待核待 S3 核对H corpus-map确立"评 WM = 它对策略的排序与真实差多少"的产业共识。
65Scalable Policy Evaluation with Video WMs2025评测/指标723.04.34.32.5 待核待 S3 核对H corpus-map复用互联网视频,绕开昂贵成对 video-action 数据。

T3

#PaperYear接口论文打分重要WMLH组织权威组织/来源信号证据状态一句话
1Evaluating Gemini Robotics in Veo2026评测/指标713.24.04.32.5 待核待 S3 核对H corpus-map / S1-like1600+ 真实评测校准,目标定位为排序准确而非绝对成功率。
2Prediction over Reconstruction2026评测/指标713.24.04.32.5 待核待 S3 核对H corpus-map / S1-like机制级结论:重建保真度与动作相关性在表示层正交。
3Training Diffusion Policies with Long Context2026记忆/持久性702.73.84.92.5 待核Queue, 待 S3 核对 / 2026S0 queue与历史长度/持久性直接相关,避免重复失败动作。
4Long-VLA2026动作抽象703.43.04.82.5 待核Queue, 待 S3 核对 / 2026S1 source-checked端到端设计的长时域 VLA。
5WholeBodyVLA / BodyVLA2026动作抽象693.43.04.62.5 待核待 S3 核对S1 source-checked从无动作第一视角视频学统一潜动作。
6Anticipation-VLA2026动作抽象652.73.04.82.5 待核Queue, 待 S3 核对 / 2026S0 queue长操作的子目标生成候选。
7VERA2026动作抽象642.73.04.62.5 待核Queue, 待 S3 核对 / 2026S0 queue高层视频规划与低层执行解耦。
8Anthropic: harnesses for long-running agents2026LLM类比642.81.54.44.8 顶级Anthropic engineering guidanceS1 source-checked多小时/天 agent 的外部验证与跨会话交接。
9Long-running Claude for science2026LLM类比642.81.54.44.8 顶级Anthropic research/engineering signalS1 source-checkedharness/oracle 比上下文长度更重要。
10Mage (Memory as Execution State)2026LLM类比642.81.54.45.0 顶级UCLA; Carnegie Mellon University; AppleS1 source-checked把记忆当执行状态数据结构,隔离错误级联。
11Odysseys2026LLM类比642.81.54.45.0 顶级Carnegie Mellon University signalS1 source-checked浏览器轨迹作为长时域有状态规划。
12OpenAI Codex long-horizon guide2026LLM类比642.81.54.45.0 顶级OpenAI official developer guideS1 source-checked长编码任务需要持久工件与可复现验证。

T4

#PaperYear接口论文打分重要WMLH组织权威组织/来源信号证据状态一句话
1AutoScientists / AutoLab2026LLM类比582.81.54.42.8 待核Academic arXiv line; multi-agent science workflowS1 source-checked长研究轨迹的编排、分工与迭代。
2SWE-Marathon2026LLM类比582.81.54.42.8 待核Multi-institution benchmark paperS1 source-checked长工具调用轨迹+多层隐藏验证。
3Graph-of-Skills2026LLM类比532.11.54.42.8 待核Academic arXiv lineS0 queue长任务需要流程依赖跟踪,而非纯语义检索。