Long Horizon：152 篇世界模型论文阅读梯队

June 2026

一份面向 robot world model、long-horizon planning、trust horizon、event verification 和 embodied memory 的阅读优先级表。

这是一份面向 long-horizon robot world model 的阅读优先级表。它把 152 个 world-model、robot policy、VLA、humanoid、memory 与 LLM-agent 类比条目放到同一个梯队里，方便判断哪些论文值得先精读，哪些适合按问题回查。

这张表服务一个具体阅读目标：如果接下来要围绕 robot world model 的长时程可靠性、闭环规划、trust horizon、event verification 和 memory 继续往下读，应该先把哪些工作放到桌面上。分数表示阅读优先级，不代表论文质量的最终排名，也不构成领域权威榜单。

读表方式

论文打分: 0-100 综合阅读优先分，来自 重要性 35% + World Model 相关度 25% + Long-Horizon 相关度 25% + 组织权威 15%。
重要: 这篇在当前研究路线中的概念/实验/路线价值，1-5。
WM: 与 world model 本体、世界模型规划、生成/预测/评估接口的相关度，1-5。
LH: 与 long-horizon failure、长程执行、记忆、事件进度、信任时域的相关度，1-5。
组织权威: 只作为加权信号，不替代论文内容。Stanford、DeepMind、OpenAI、NVIDIA、UC Berkeley、CMU、MIT、Meta FAIR、Google/DeepMind、Mila 等会加分；尚未逐条核实的 queue 条目标 待核。
证据状态: M 是 roadmap 条目，K 是经典锚点，S1/S2 是已做过源检查或 first-pass 的条目，H corpus-map 是从 152 项 corpus map 继承，仍需后续 S3 核对。

梯队定义

梯队	读法	判据	数量
T0	立刻精读，做 paper card / 复现或实验设计直接引用	score range by rubric	24
T1	优先精读，围绕一个问题读方法图、主实验和消融	score range by rubric	48
T2	问题驱动阅读，读 abstract、方法骨架、主表和局限	score range by rubric	65
T3	背景/补课/对照，按概念需要 skim	score range by rubric	12
T4	旁支或类比，暂不挤占机器人 world-model 主线时间	score range by rubric	3

接口覆盖

接口	数量
闭环规划	19
预测/漂移	21
信任时域	12
事件验证	16
记忆/持久性	20
动作抽象	33
序列WM	11
评测/指标	12
LLM类比	8

一眼优先级

如果只想先读出判断力，先读 T0；如果要补完整地图，再顺着 T1/T2 按接口补。T3/T4 是有用的背景或类比，但不应该打断当前主线。

T0

#	Paper	Year	接口	论文打分	重要	WM	LH	组织权威	组织/来源信号	证据状态	一句话
1	GRASP	2026	闭环规划	97	4.9	4.8	4.8	5.0 顶级	University of California, Berkeley; Meta FAIR; New York University	S2/S1 local source-checked	用虚拟中间状态和梯度规划，直接暴露并缓解 planner 穿过 learned dynamics 时的长时域脆性。
2	TD-MPC	2022	闭环规划	95	5.0	4.5	4.8	4.6 强	Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线	M local-roadmap / paper card	你的算法主干:短时域规划+终端价值。
3	PRISM-WM	2026	预测/漂移	95	5.0	5.0	4.3	4.4 强	Beijing Institute of Technology; Peking University; BIGAI / NLCo Lab; Mingwei Li et al.	M local-roadmap	你的本地目标:混合/接触动力学可能有不同信任时域。
4	Closing the Train-Test Gap (gradient planning)	2025	闭环规划	94	4.8	4.8	4.6	4.5 强	Columbia University; New York University	S1 source-checked	让世界模型在梯度规划诱导的分布下可用。
5	Cosmos Policy	2026	闭环规划	94	4.6	4.8	4.6	5.0 顶级	NVIDIA; Stanford University	M local-roadmap / paper card	用 latent frame 注入,一个视频模型当策略+世界+价值。
6	WEAVER	2026	预测/漂移	94	4.8	5.0	4.1	5.0 顶级	Mila / Universite de Montreal; Carnegie Mellon University; McGill University	S2 local first-pass	保真+一致+效率同时拿,与真实成功率 0.87 相关。
7	Variable-Length Latent World Models	2026	信任时域	94	4.6	4.7	5.0	4.4 强	Peking University; Amazon AGI SF Lab	S2 local first-pass	直接质疑固定 MPC 时域。
8	DreamZero (World Action Models)	2026	闭环规划	91	4.1	4.8	4.6	5.0 顶级	NVIDIA	S1 source-checked	世界-动作模型本身就是零样本策略,7Hz 闭环。
9	MuZero	2020	闭环规划	91	4.4	4.5	4.6	5.0 顶级	DeepMind (known classic; not rechecked here)	K known-anchor	不重建观测也能用任务相关潜动力学做规划。
10	TD-MPC2	2024	闭环规划	91	4.5	4.5	4.6	4.6 强	Nicklas Hansen, Xiaolong Wang, Hao Su; UCSD 系作者线	K known-anchor	Newt/Puppeteer 的直系祖先。
11	DreamerV3	2023	预测/漂移	91	4.4	5.0	4.1	5.0 顶级	DeepMind / Google Research line (known classic; not rechecked here)	K known-anchor	强力通用世界模型 RL 基线。
12	PointWorld	2026	预测/漂移	91	4.4	5.0	4.1	5.0 顶级	Stanford University; NVIDIA	S2 local first-pass	预测动作条件下的 3D 场景流,绕开像素、可接 MPC。
13	NEUBAY	2026	信任时域	91	4.4	4.4	5.0	4.5 强	Mila; Universite de Montreal; McGill University	S1 source-checked	离线无需显式保守:长 rollout 本身压住价值高估。
14	PETS	2018	信任时域	91	4.1	4.4	5.0	5.0 顶级	UC Berkeley / model-based RL classic line (not rechecked here)	K known-anchor	不确定性感知基于模型控制的核心基线。
15	Universal Horizon Models	2026	信任时域	91	4.5	4.4	5.0	4.2 强	Seoul National University	S2 local first-pass	把 horizon 本身做成离线价值学习的一等变量。
16	H-WM	2026	事件验证	91	4.3	4.4	5.0	4.5 强	Huawei Noah's Ark Lab; University of Toronto; University of British Columbia; McGill University	S1 source-checked	用符号/逻辑状态当长时域抗漂移的检查点。
17	Newt	2026	闭环规划	90	4.2	4.8	4.6	4.6 强	UC San Diego; Nicklas Hansen, Hao Su, Xiaolong Wang	M local-roadmap	测试 TD-MPC 式世界模型能否跨 200 连续控制任务在线 RL。
18	MBPO	2019	预测/漂移	90	4.2	4.8	4.3	5.0 顶级	UC Berkeley / model-based RL classic line (not rechecked here)	K known-anchor	"短想象 rollout 避免长程误差累积"的经典论证。
19	Dreamer	2020	预测/漂移	89	4.2	4.8	4.1	5.0 顶级	DeepMind / Google Research line (known classic; not rechecked here)	K known-anchor	在想象的潜 rollout 中学行为。
20	EV-WM (Event-Verified WM)	2026	事件验证	89	4.8	4.4	5.0	2.8 待核	AI Lab, Country Garden Services Group; Fudan University; Omni AI	S2 local first-pass	直接给任务进度/语义一致性/可行性打分,而非只看像素。
21	EventVLA	2026	记忆/持久性	89	4.5	4.0	4.9	4.4 强	USTC; Shanghai AI Lab; SJTU; Dalian University of Technology; Huawei; HKU; Tsinghua University; Peking University	S2 local first-pass	遮挡/不可观时保住任务证据。
22	MPC / 滚动时域控制	1980	闭环规划	88	4.2	4.5	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	TD-MPC/PETS/MPPI 等背后的控制接口。
23	PlaNet	2019	预测/漂移	88	4.1	4.8	4.1	5.0 顶级	Google DeepMind line (not rechecked here)	K known-anchor	把规划从像素搬进紧凑潜状态。
24	WAV (World Action Verifier)	2026	事件验证	86	4.6	4.4	4.8	2.5 待核	待 S3 核对	H corpus-map / S1-like	拆成可独立验证的因子;验证比生成便宜,在欠探索区自纠。

T1

#	Paper	Year	接口	论文打分	重要	WM	LH	组织权威	组织/来源信号	证据状态	一句话
1	Deep Visual Foresight	2017	预测/漂移	87	3.8	5.0	4.1	5.0 顶级	UC Berkeley robot learning line (not rechecked here)	K known-anchor	经典机器人视频预测规划,视频世界模型规划的祖先。
2	DreamerV2	2021	预测/漂移	87	3.8	4.8	4.3	5.0 顶级	DeepMind / Google Research line (known classic; not rechecked here)	K known-anchor	视觉控制上更强的长想象行为学习。
3	Visual MPC / DNA-CDNA-SNA	2018	预测/漂移	87	3.8	5.0	4.1	5.0 顶级	UC Berkeley robot learning line (not rechecked here)	K known-anchor	暴露了纯像素 rollout 用于操作的早期局限。
4	COMBO	2021	信任时域	86	3.8	4.4	5.0	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	不确定性/悲观 vs 自适应信任的有用对照。
5	MOPO	2020	信任时域	86	3.8	4.4	5.0	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	离线 MBRL 对分布漂移下模型误差的回应。
6	MOReL	2020	信任时域	86	3.8	4.4	5.0	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	把不确定区域当危险处理的离线策略学习。
7	RAMBO	2022	信任时域	86	3.8	4.4	5.0	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	让离线学到的模型更鲁棒。
8	SayCan	2022	事件验证	86	3.8	4.1	4.8	5.0 顶级	Google Robotics / DeepMind style line (not rechecked here)	K known-anchor	桥接语言计划与物理可行。
9	VoxPoser	2023	事件验证	86	3.8	4.1	4.8	5.0 顶级	Stanford / NVIDIA / robotics line (not rechecked here)	K known-anchor	把语言约束变成空间价值图。
10	Mem-World	2026	记忆/持久性	86	4.5	4.3	4.9	2.8 待核	Dalian University of Technology; Samsung R&D Institute China-Beijing	S2 local first-pass	记忆该怎么索引(几何/腕部视角)比存多少更重要。
11	MPPI	2016	闭环规划	85	3.9	4.5	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	机器人里重要的采样式 MPC 基线。
12	tau0-WM	2026	闭环规划	85	4.2	4.8	4.6	2.8 待核	Shanghai Innovation Institute; AGIBOT Finch	S1 source-checked	想象作为按需调用的计算,latent 默认、要才渲染。
13	Agentic World Modeling	2026	事件验证	85	3.4	4.4	4.8	5.0 顶级	Google DeepMind / academic collaboration signal, 2026-06	S1 source-checked	从被动预测走向会因预测失败而改写自己的 agent。
14	Code as Policies	2022	事件验证	85	3.8	4.1	4.8	4.8 顶级	Google Robotics line (not rechecked here)	K known-anchor	计划可检查/可执行,物理验证仍在外部。
15	HumanNet	2026	记忆/持久性	85	4.1	3.8	4.9	4.4 强	Peking University / DAGroup; SimpleSilicon Innovation Team	M local-roadmap	长行为与人到机器迁移的数据底座。
16	Lifting Embodied World Models	2026	动作抽象	85	4.3	3.5	4.8	4.5 强	NYU / BAIR signal, 2026	S1 source-checked	改变动作单位降低规划负担、稳长程。
17	Cross-Entropy Method (CEM)	1999	闭环规划	84	3.8	4.5	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	学习动力学上常用的动作序列采样优化器。
18	MIND-V	2026	预测/漂移	84	3.4	5.0	4.3	4.4 强	Tsinghua University; X Square Robot; Sun Yat-sen University; HKUST	S1 source-checked	追求长操作视频的物理合理与逻辑连贯。
19	SimPLe	2019	预测/漂移	84	3.8	5.0	4.1	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	早期 Atari 像素世界模型,误差累积明显。
20	ReKep	2024	事件验证	84	3.8	4.1	5.0	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	用可复用空间约束结构化长操作。
21	C-SWM	2020	记忆/持久性	84	3.8	4.3	4.7	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	学对象结构化动力学做规划/控制。
22	KEMO	2026	记忆/持久性	84	4.5	4.0	4.9	2.8 待核	Hong Kong Embodied AI Lab; CUHK; xdof.ai; UESTC; Shanghai Jiao Tong University	S2 local first-pass	存任务相关状态变化帧并当记忆 token 注入。
23	OP3	2019	记忆/持久性	84	3.8	4.3	4.7	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	对象中心世界模型祖先。
24	Psi-Zero	2026	动作抽象	84	4.3	3.0	4.8	5.0 顶级	USC PSI Lab; NVIDIA; WorldEngine	M local-roadmap / paper card	长时域人形 loco-manip 策略锚点,动作块化。
25	Puppeteer	2025	动作抽象	84	4.3	3.5	4.6	4.6 强	UC San Diego; New York University; Meta AI	M local-roadmap / paper card	视觉全身人形控制的分层世界模型(低层跟踪+高层视觉)。
26	WM for Robot Learning: A Comprehensive Survey	2026	评测/指标	84	3.5	4.3	4.5	5.0 顶级	NTU; UC Berkeley; Stanford; University of Tokyo; Oxford; Microsoft; ETH Zurich; Princeton; Harvard 等	S1 source-checked	把动作条件一致性与长时域可靠性当核心挑战。
27	Dyna	1990	预测/漂移	83	3.8	4.8	4.1	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	最早提出用模型生成的想象转移补充真实经验。
28	PILCO	2011	预测/漂移	83	3.8	4.8	4.1	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	早期高样本效率、带不确定性的基于模型控制。
29	Behavior Trees for Robotics	2014	事件验证	83	3.8	4.1	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	环境验证与失败恢复有用。
30	Inner Monologue	2022	事件验证	83	3.8	4.1	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	用环境反馈更新机器人语言计划。
31	STRIPS / PDDL planning	1971	事件验证	83	3.8	4.1	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	定义了事件/谓词规划的词汇。
32	Task and Motion Planning (TAMP)	2010	事件验证	83	3.8	4.1	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	逻辑高层+低层可行性的机器人祖先。
33	MEM (Multi-Scale Embodied Memory)	2026	记忆/持久性	83	3.4	4.0	4.9	5.0 顶级	Physical Intelligence; UC Berkeley / Stanford / CMU / NYU / UT Austin / Penn / Meta / NVIDIA signal, 2026-03	S1 source-checked	短期视觉记忆+长期语言记忆,长任务保持记忆数十分钟。
34	SlotFormer	2022	记忆/持久性	83	3.8	4.0	4.9	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	长对象槽 rollout 基线。
35	World-Ego Modeling	2026	记忆/持久性	83	3.4	4.3	4.9	4.4 强	Institute of Automation, CAS; UCAS; Zhongguancun Academy; Shanghai Jiao Tong University; Peking University	S1 source-checked	把持久世界动态与机器人自我相机运动分开,治长程漂移。
36	VIRAL	2025	动作抽象	83	4.1	3.0	4.8	5.0 顶级	NVIDIA; Carnegie Mellon University; UC Berkeley; CUHK	M local-roadmap	视觉 sim-to-real 下的长时域人形 loco-manip。
37	V-JEPA 2 / V-JEPA 2-AC	2025	闭环规划	82	4.2	4.5	4.6	2.5 待核	待 S3 核对	H corpus-map	不生成像素,在抽象 latent 里做 MPC,比视频生成快约 16×。
38	MONet / IODINE	2019	记忆/持久性	82	3.8	4.0	4.7	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	早期无监督对象中心表示锚点。
39	SAVi	2021	记忆/持久性	82	3.8	4.0	4.7	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	跨视频跟踪对象。
40	Slot Attention	2020	记忆/持久性	82	3.8	4.0	4.7	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	持久对象的核心槽词汇。
41	Slot-MPC	2026	记忆/持久性	82	4.3	4.0	4.7	2.8 待核	University of Bonn; Center for Robotics; Lamarr Institute	S1 source-checked	对象槽让预测/控制更可组合,接对象持久性到预测控制。
42	Diffusion Policy	2023	动作抽象	82	4.1	3.0	4.6	5.0 顶级	Columbia University / TRI / Stanford robot learning line (not rechecked here)	K known-anchor	现代机器人操作的重要基础策略类。
43	SPIDER	2026	动作抽象	82	4.1	3.0	4.6	5.0 顶级	Meta FAIR; Carnegie Mellon University	M local-roadmap	把人类示范变成动力学可行的机器人轨迹。
44	LAPO (Learning to Act without Actions)	2024	动作抽象	81	3.9	3.3	4.6	4.8 顶级	Weco AI; Meta FAIR	M local-roadmap	让纯视频行为可用于未来策略/世界模型。
45	Octo	2024	动作抽象	81	3.8	3.0	4.8	5.0 顶级	UC Berkeley / Stanford / open robotics line (known baseline; not rechecked here)	K known-anchor	策略评测与长任务扩展基线。
46	OpenVLA	2024	动作抽象	81	3.9	3.0	4.8	5.0 顶级	Stanford / UC Berkeley / open robotics line (known baseline; not rechecked here)	K known-anchor	记忆/长时域 VLA 常用基线。
47	RT-2	2023	动作抽象	81	4.0	3.0	4.6	5.0 顶级	Google DeepMind / Robotics line (known classic; not rechecked here)	K known-anchor	语言到动作 grounding 的关键 VLA 基线。
48	SMP (Score-Matching Motion Priors)	2026	动作抽象	81	4.0	3.0	4.6	5.0 顶级	Simon Fraser University; Sony Interactive Entertainment; Stanford; Snap; NRC Canada; NVIDIA	H corpus-map / S1-like	可复用、任务无关的动作自然度先验/奖励。

T2

#	Paper	Year	接口	论文打分	重要	WM	LH	组织权威	组织/来源信号	证据状态	一句话
1	IRIS	2022	预测/漂移	80	3.8	5.0	4.1	2.8 待核	academic world-model line / 2022-2023	K known-anchor	图像 token 世界模型做样本高效 RL。
2	AnySkill	2024	动作抽象	80	4.1	3.0	4.6	4.4 强	Peking University; BIGAI; Beijing University of Posts and Telecommunications	M local-roadmap	用语言/CLIP 奖励组合底层技能。
3	Options framework	1999	动作抽象	80	4.0	3.2	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	缩短有效时域的经典形式化。
4	RT-1	2022	动作抽象	80	4.0	3.0	4.6	4.8 顶级	Google Robotics / Everyday Robots line (known classic; not rechecked here)	K known-anchor	通用机器人策略基线。
5	WM for Robotic Manipulation: A Survey	2026	评测/指标	80	3.5	4.3	4.3	4.2 强	Hong Kong Polytechnic University; HIT Shenzhen; Great Bay University; CityU Hong Kong (Dongguan); HKU; NTU; KTH 等	S1 source-checked	给接触、幻觉、动作对齐、闭环评测定位。
6	WorldGym / Evaluating Robot Policies in a WM	2025	评测/指标	80	4.2	4.3	4.3	2.5 待核	Queue, 待 S3 核对 / 2025-2026	S1 source-checked	一张真实初始帧即可评策略;发现系统性高估 OOD 策略。
7	HAC	2019	动作抽象	79	3.8	3.2	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	直击长时域稀疏奖励。
8	HER	2017	动作抽象	79	3.8	3.2	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	稀疏长时域目标学习的关键技巧。
9	ULTRA	2026	动作抽象	79	4.1	3.0	4.6	4.2 强	University of Illinois Urbana-Champaign	M local-roadmap	桥接稠密跟踪与稀疏自主目标。
10	Interactive World Simulator	2026	闭环规划	78	3.4	4.8	4.6	2.5 待核	待 S3 核对	S1 source-checked	用稳定动作条件世界仿真训/评策略。
11	AR Forcing	2026	预测/漂移	78	3.4	5.0	4.3	2.5 待核	Queue, 待 S3 核对 / 2026	S1 source-checked	压住长时域导航/视频生成的漂移。
12	HWM (Hierarchical Planning, Latent WM)	2026	信任时域	78	3.1	4.7	5.0	2.5 待核	待 S3 核对	H corpus-map / S1-like	实证可信长度随尺度/状态变化:近处信低层、远处信高层。
13	Worth Remembering	2026	记忆/持久性	78	2.7	4.0	4.9	5.0 顶级	MIT signal, 2026	S0 queue	只存行为有用的片段,而非所有帧。
14	A2A (Action-to-Action Flow Matching)	2026	动作抽象	78	3.9	3.0	4.6	4.2 强	MARS Lab, Nanyang Technological University	M local-roadmap	用历史动作替噪声初值,降推理延迟、稳动作块。
15	ACT (Action Chunking Transformers)	2023	动作抽象	78	4.0	3.0	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	改变控制时间单位的重要工作。
16	Feudal Networks	2017	动作抽象	78	3.8	3.2	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	高层给低层设目标的范式。
17	HIRO	2018	动作抽象	78	3.8	3.2	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	连续控制分层基线。
18	LoHo-Manip	2026	动作抽象	78	3.4	3.0	4.8	5.0 顶级	University of California, San Diego; NVIDIA	S1 source-checked	用进度跟踪+重规划扩展短 VLA 到长程。
19	MimicPlay	2023	动作抽象	78	3.8	3.0	4.8	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	视频条件长时域模仿,分阶段数据。
20	Option-Critic	2017	动作抽象	78	3.8	3.2	4.6	4.0 中高/经典	领域经典锚点; 组织未逐条复核	K known-anchor	端到端学技能与终止。
21	pi0	2025	动作抽象	78	4.0	3.0	4.8	3.8 中高/经典	Physical Intelligence / industry foundation-policy line (known baseline; not rechecked here)	K known-anchor	工业相关长操作 VLA 基线。
22	WorldEval	2025	评测/指标	78	4.0	4.3	4.3	2.5 待核	待 S3 核对	S1 source-checked	强弱策略在生成视频评测里排序与真实一致;需 latent action 才动作可控。
23	dWorldEval	2026	评测/指标	77	4.0	4.0	4.3	2.5 待核	待 S3 核对	S1 source-checked	把"成功"内化为模型自预测的进度信号,事件成第一类公民。
24	Compositional Planning with Jumpy WM	2026	闭环规划	76	3.1	4.8	4.6	2.5 待核	待 S3 核对	H corpus-map / S1-like	跨时间尺度一致,把已训策略当时间扩展动作来拼。
25	Latent Geometry (Amortizing Planning)	2026	闭环规划	76	3.1	4.5	4.8	2.5 待核	待 S3 核对	H corpus-map / S1-like	把在线搜索摊销成前馈映射,省 100×。
26	LCDrive (Latent CoT WM)	2026	闭环规划	76	3.1	4.8	4.6	2.5 待核	待 S3 核对	H corpus-map / S1-like	把推理放进动作对齐的 latent,而非自然语言 CoT。
27	DreamerPro / policy-shaped prediction	2025	预测/漂移	76	3.4	4.8	4.1	2.5 待核	待 S3 核对	S1 source-checked	只预测对控制重要的、忽略干扰。
28	Persistent Robot World Models	2026	预测/漂移	76	3.1	5.0	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	把训练目标从单步精度移到自回归长时域表现,治漂移。
29	Ego-Vision WM for Humanoid Contact	2025	信任时域	76	2.9	4.7	5.0	2.5 待核	待 S3 核对	H corpus-map	与接触状态信任直接相关。
30	Cortex 2.0	2026	事件验证	76	3.1	4.4	5.0	2.5 待核	industrial manipulation line, 待 S3 核对 / 2026	H corpus-map / S1-like	给反应式 VLA 加未来评估,提长程可靠性。
31	PALM	2026	事件验证	76	3.4	3.9	5.0	2.5 待核	待 S3 核对	S1 source-checked	用结构化未来可供性推理做长 VLA。
32	FOCUS	2025	记忆/持久性	76	3.4	4.3	4.7	2.5 待核	待 S3 核对	S1 source-checked	近期对象中心世界模型/控制线。
33	Keyframe-Chaining VLA	2026	记忆/持久性	76	3.4	4.0	4.9	2.5 待核	Queue, 待 S3 核对 / 2026	S1 source-checked	针对非马尔可夫长操作,检索历史关键帧。
34	EgoHumanoid	2026	动作抽象	76	4.1	3.0	4.8	2.8 待核	University of Hong Kong; Shanghai Innovation Institute; Beihang University	M local-roadmap	用无机器人人类示范扩展长任务。
35	WorldArena	2026	评测/指标	76	3.9	4.0	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	量化 perception–functionality gap:高画质≠强具身能力。
36	WMPO	2025	闭环规划	75	2.9	4.8	4.6	2.5 待核	待 S3 核对	H corpus-map	无需真机交互,坚持像素级预测复用预训练视觉,涌现自我纠错。
37	Horizon Generalization in RL	2025	信任时域	75	2.9	4.4	5.0	2.5 待核	待 S3 核对	H corpus-map	近处训好+不变性→远目标自动可达,不需长 rollout。
38	TD-Flow	2025	信任时域	75	2.9	4.4	5.0	2.5 待核	待 S3 核对	H corpus-map	靠降梯度方差,把可信预测从 20–50 步推到 5× 长。
39	CABTO	2026	事件验证	74	3.1	4.1	4.8	2.5 待核	待 S3 核对	H corpus-map / S1-like	上下文感知的符号/反应式任务执行。
40	AMP	2021	动作抽象	74	3.9	3.0	4.6	2.8 待核	DeepMimic / adversarial motion prior 经典线	M local-roadmap	经典动作自然度先验。
41	GMR (General Motion Retargeting)	2025	动作抽象	74	2.9	3.0	4.8	5.0 顶级	Stanford University	H corpus-map	参考轨迹不可行会让长序列失败。
42	GR00T	2025	动作抽象	74	2.9	3.0	4.8	5.0 顶级	NVIDIA humanoid foundation-policy line	H corpus-map	人形长时域策略的工业信号。
43	In-context World Models	2026	序列WM	74	3.2	5.0	3.9	2.5 待核	待 S3 核对	H corpus-map / S1-like	换环境=换上下文,一个序列模型+不同 context=不同世界。
44	WorldVLA / RynnVLA-002	2026	序列WM	74	3.2	5.0	3.9	2.5 待核	待 S3 核对	H corpus-map / S1-like	世界模型与策略是同一条 token 流的两种读法。
45	What Drives Success in JEPA Planning	2025	闭环规划	73	2.9	4.5	4.6	2.5 待核	待 S3 核对	H corpus-map	表示/规划接口审计候选。
46	ENACT	2025	记忆/持久性	73	2.9	4.3	4.7	2.5 待核	待 S3 核对	H corpus-map	用排序探针测对象持久性:不生成也能查"有没有世界模型"。
47	Language-Guided Object-Centric WM	2025	记忆/持久性	73	2.9	4.3	4.7	2.5 待核	待 S3 核对	H corpus-map	语言目标到对象中心 MPC 的桥。
48	Astra	2026	序列WM	73	3.2	4.8	3.9	2.5 待核	待 S3 核对	H corpus-map / S1-like	时间维自回归 + 帧内扩散去噪融合,因果与画质兼得。
49	Genie 3	2025	序列WM	73	3.0	5.0	3.9	2.5 待核	待 S3 核对	H corpus-map	空间一致性靠自回归"涌现"而非显式 3D(参数为二手)。
50	Improving Transformer World Models	2025	序列WM	73	3.0	5.0	3.9	2.5 待核	待 S3 核对	H corpus-map	token 化 TWM 在 Craftax 上超 DreamerV3。
51	NextLat	2026	序列WM	73	3.2	4.8	3.9	2.5 待核	待 S3 核对	H corpus-map / S1-like	latent 收敛到 belief state,给 Transformer 注入循环归纳偏置。
52	PAN	2025	序列WM	73	3.0	4.8	4.1	2.5 待核	待 S3 核对	H corpus-map	用语言驱动"脑内思想实验",长程可交互。
53	SSM–Transformer Hybrid WM	2025	序列WM	73	3.0	5.0	3.9	2.5 待核	待 S3 核对	H corpus-map	兼顾流式效率与全局回忆,缓解二次注意力成本。
54	RoboWM-Bench	2026	评测/指标	73	3.2	4.3	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	把生成视频转成可执行动作去验:视觉合理≠可执行。
55	WorldLens (Driving WM eval)	2026	评测/指标	73	3.2	4.3	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	视觉真实≠行为真实;大规模训练提画质却损害任务对齐。
56	Genie Envisioner	2025	预测/漂移	72	2.7	5.0	4.1	2.5 待核	待 S3 核对	S0 queue	近期视频/世界基础模型线,需细审。
57	IRASim	2025	预测/漂移	72	2.7	5.0	4.1	2.5 待核	待 S3 核对	S0 queue	动作条件视频生成做机器人数据/评测。
58	RoboDreamer	2025	预测/漂移	72	2.7	5.0	4.1	2.5 待核	待 S3 核对	S0 queue	操作的视频WM底座候选。
59	IPR-1 (Interactive Physical Reasoner)	2025	事件验证	72	2.9	4.1	4.8	2.5 待核	待 S3 核对	H corpus-map	会预测≠懂物理,把预测绑到物理动作编码而非像素相似度。
60	RAVEN	2025	记忆/持久性	72	2.9	4.0	4.9	2.5 待核	Queue, 待 S3 核对 / 2026	H corpus-map	长时域机器人 QA 与导航的具身情景记忆。
61	Masked Latent Transformer (Δ-IRIS 系)	2025	序列WM	72	3.0	4.8	3.9	2.5 待核	待 S3 核对	H corpus-map	缩短 token 序列、训练提速一个量级。
62	RELIC	2025	序列WM	72	3.0	4.8	3.9	2.5 待核	待 S3 核对	H corpus-map	把几何线索显式注入序列,在序列框架里拿回 3D 一致性。
63	Self Forcing	2025	序列WM	72	3.0	4.8	3.9	2.5 待核	待 S3 核对	H corpus-map	弥合自回归视频的 exposure bias,单卡实时且匹配扩散质量。
64	GWM-Robotics (Runway)	2025	评测/指标	72	3.0	4.3	4.3	2.5 待核	待 S3 核对	H corpus-map	确立"评 WM = 它对策略的排序与真实差多少"的产业共识。
65	Scalable Policy Evaluation with Video WMs	2025	评测/指标	72	3.0	4.3	4.3	2.5 待核	待 S3 核对	H corpus-map	复用互联网视频,绕开昂贵成对 video-action 数据。

T3

#	Paper	Year	接口	论文打分	重要	WM	LH	组织权威	组织/来源信号	证据状态	一句话
1	Evaluating Gemini Robotics in Veo	2026	评测/指标	71	3.2	4.0	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	1600+ 真实评测校准,目标定位为排序准确而非绝对成功率。
2	Prediction over Reconstruction	2026	评测/指标	71	3.2	4.0	4.3	2.5 待核	待 S3 核对	H corpus-map / S1-like	机制级结论:重建保真度与动作相关性在表示层正交。
3	Training Diffusion Policies with Long Context	2026	记忆/持久性	70	2.7	3.8	4.9	2.5 待核	Queue, 待 S3 核对 / 2026	S0 queue	与历史长度/持久性直接相关,避免重复失败动作。
4	Long-VLA	2026	动作抽象	70	3.4	3.0	4.8	2.5 待核	Queue, 待 S3 核对 / 2026	S1 source-checked	端到端设计的长时域 VLA。
5	WholeBodyVLA / BodyVLA	2026	动作抽象	69	3.4	3.0	4.6	2.5 待核	待 S3 核对	S1 source-checked	从无动作第一视角视频学统一潜动作。
6	Anticipation-VLA	2026	动作抽象	65	2.7	3.0	4.8	2.5 待核	Queue, 待 S3 核对 / 2026	S0 queue	长操作的子目标生成候选。
7	VERA	2026	动作抽象	64	2.7	3.0	4.6	2.5 待核	Queue, 待 S3 核对 / 2026	S0 queue	高层视频规划与低层执行解耦。
8	Anthropic: harnesses for long-running agents	2026	LLM类比	64	2.8	1.5	4.4	4.8 顶级	Anthropic engineering guidance	S1 source-checked	多小时/天 agent 的外部验证与跨会话交接。
9	Long-running Claude for science	2026	LLM类比	64	2.8	1.5	4.4	4.8 顶级	Anthropic research/engineering signal	S1 source-checked	harness/oracle 比上下文长度更重要。
10	Mage (Memory as Execution State)	2026	LLM类比	64	2.8	1.5	4.4	5.0 顶级	UCLA; Carnegie Mellon University; Apple	S1 source-checked	把记忆当执行状态数据结构,隔离错误级联。
11	Odysseys	2026	LLM类比	64	2.8	1.5	4.4	5.0 顶级	Carnegie Mellon University signal	S1 source-checked	浏览器轨迹作为长时域有状态规划。
12	OpenAI Codex long-horizon guide	2026	LLM类比	64	2.8	1.5	4.4	5.0 顶级	OpenAI official developer guide	S1 source-checked	长编码任务需要持久工件与可复现验证。

T4

#	Paper	Year	接口	论文打分	重要	WM	LH	组织权威	组织/来源信号	证据状态	一句话
1	AutoScientists / AutoLab	2026	LLM类比	58	2.8	1.5	4.4	2.8 待核	Academic arXiv line; multi-agent science workflow	S1 source-checked	长研究轨迹的编排、分工与迭代。
2	SWE-Marathon	2026	LLM类比	58	2.8	1.5	4.4	2.8 待核	Multi-institution benchmark paper	S1 source-checked	长工具调用轨迹+多层隐藏验证。
3	Graph-of-Skills	2026	LLM类比	53	2.1	1.5	4.4	2.8 待核	Academic arXiv line	S0 queue	长任务需要流程依赖跟踪,而非纯语义检索。