Command Palette
Search for a command to run...

摘要
世界模型使智能体能够想象、预测并推理其行为对世界演化的影响,从而进行规划与策略制定。尽管近年来的视频生成模型能够生成逼真的视觉序列,但它们通常采用“提示到完整视频”的生成方式,缺乏因果控制能力、交互性以及长时程的一致性,难以支持有目的的推理任务。相比之下,现有的世界建模研究多集中于特定领域(如物理系统、游戏环境或三维场景动态),在建模深度与可控性方面受限,且难以在不同环境和交互形式之间实现有效泛化。在本工作中,我们提出PAN——一种通用、可交互且具备长时程一致性的世界模型。PAN通过基于历史信息与自然语言动作指令的高质量视频模拟,预测未来的世界状态。PAN采用生成式潜在预测(Generative Latent Prediction, GLP)架构,该架构融合了基于大语言模型(LLM)的自回归潜在动态主干网络,利用海量文本知识实现模拟的语义锚定,并支持对语言指定动作的条件化建模;同时结合视频扩散解码器,重建具有高度感知细节与时间连贯性的视觉观测结果,从而实现潜在空间推理(想象)与可实现的世界动态(现实)之间的统一。PAN在涵盖多样化领域的大规模视频-动作配对数据上进行训练,支持开放域、动作条件化的模拟,并具备连贯、长期的动态演化能力。大量实验表明,相较于其他视频生成模型与世界模型,PAN在动作条件化世界模拟、长时程预测以及模拟推理任务中均展现出卓越性能,朝着实现能够支持未来世界状态预测性模拟以服务于推理与决策的通用世界模型迈出了关键一步。