在人工智能领域,「世界模型」是能够对环境或世界的状态进行表征,并预测状态之间转移的模型。这种模型使 Agent 能够在模拟环境中进行学习,并能够将学到的策略迁移到真实世界中,从而提高学习效率并减少风险。
Jürgen Schmidhuber 与 David Ha 于 2018 年在论文「Recurrent World Models Facilitate Policy Evolution」中提到了世界模型,它具备理解和模拟环境、学习行为策略、以及将学习到的知识迁移到新情境的能力,能够根据当前的运动动作预测未来的感官数据。
Yann Lecun 于 2024 年 2 月在 X 平台这样定义「世界模型」:世界模型是一种基于序列数据的预测系统,通过编码器和预测器处理观察值、先前状态、动作和潜在变量来预测下一状态。自回归生成模型是其简化形式,使用恒等编码器和离散状态,无需考虑编码器坍缩问题。同年 3 月,Lecun 的研究团队在论文「Learning and Leveraging World Models in Visual Representation Learning」中引入了「图像世界模型(Imag World Models,简称 IWM)」的概念,IWM 基于 JEPA 架构,并扩展了潜在修复技术和光度变换。
随着人工智能技术的不断进步,「世界模型」有望成为智能体理解复杂环境、预测未来事件、学习有效策略并将其应用于现实世界的关键工具。