Command Palette

Search for a command to run...

10日前

PAN:汎用的、インタラクティブな、長期ホライゾン世界シミュレーションを実現する世界モデル

PAN:汎用的、インタラクティブな、長期ホライゾン世界シミュレーションを実現する世界モデル

要約

世界モデルは、知能を持つエージェントが自身の行動に対する世界の変化を想像・予測・推論し、それに基づいて計画や戦略を立てる能力を可能にする。近年の動画生成モデルは現実的な視覚シーケンスを生成できるようになったが、因果的な制御やインタラクティビティ、長期的な一貫性を欠き、意図的な推論に必要な機能を備えていないことが一般的である。一方で、既存の世界モデル研究は、物理現象やゲーム、3Dシーンの動的挙動といった限定された領域に焦点を当てており、深度や制御性に乏しく、多様な環境やインタラクション形式間での一般化が困難である。本研究では、一般性に優れ、インタラクティブかつ長期視野にわたる世界モデル「PAN」を提案する。PANは、過去の履歴と自然言語による行動を条件として、高品質な動画シミュレーションを通じて将来の世界状態を予測する。PANは、大規模言語モデル(LLM)に基づく自己回帰的潜在動力学バックボーンと、テキストベースの知識を基盤として行動の言語指定による条件付けを可能にする生成的潜在予測(Generative Latent Prediction: GLP)アーキテクチャを採用している。さらに、視覚的に詳細かつ時間的に整合性のある観測を再構成する動画拡散デコーダーを組み合わせることで、潜在空間における推論(想像)と現実可能な世界動力学(現実)の統合を実現している。多様な領域にわたる大規模な動画・行動ペアデータセット上で訓練されたPANは、オープンドメインかつ行動条件付きのシミュレーションを実現し、一貫性のある長期動的挙動を維持する。広範な実験により、他の動画生成モデルや世界モデルと比較して、行動条件付き世界シミュレーション、長期予測、シミュレーティブ推論において優れた性能を示しており、将来の世界状態を予測的にシミュレートすることで推論や行動を可能にする一般化された世界モデルへの一歩を踏み出している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PAN:汎用的、インタラクティブな、長期ホライゾン世界シミュレーションを実現する世界モデル | 論文 | HyperAI超神経