Command Palette
Search for a command to run...
確率構造統合を用いた世界モデリング
確率構造統合を用いた世界モデリング
Klemen Kotar Wanhee Lee Rahul Venkatesh Honglin Chen Daniel Bear et al
概要
我々は、データから豊かに制御可能かつ柔軟にプロンプト可能な世界モデルを学習するためのシステム「確率的構造統合(Probabilistic Structure Integration, PSI)」を提案する。PSIは三段階のサイクルから構成される。第一段階「確率的予測」では、データの確率的グラフィカルモデルΨを構築する。このΨは、ランダムアクセス可能な自己回帰系列モデルの形で表現される。Ψは、データ内の任意の変数が他の任意の変数の集合に依存する関係を記述する、学習された条件付き確率分布の完全な集合をサポートする。第二段階「構造抽出」では、Ψ上で因果推論を実行することにより、ゼロショットの形でデータの背後にある低次元的な性質——多様な意味を持つ「中間構造」として解釈可能な性質——を抽出する方法を示す。第三段階「統合」では、これらの構造を新たなトークン型に変換し、それを条件信号および予測ターゲットとして継続的に訓練データに再投入することで、サイクルを完結させる。このサイクルを繰り返すことで、Ψの能力が拡張され、データの内在構造をより正確にモデル化できるだけでなく、新たな制御手段(LLMに類似した汎用的プロンプト言語にたとえられる)が創出される。我々は、インターネット動画データ1.4兆トークンを用いてPSIの実装を訓練し、多様な有用な動画予測および理解推論を実行した。さらに、最先端の光流(optical flow)、自己教師付き深度推定、オブジェクトセグメンテーションを抽出し、これらの構造を活用して予測性能の向上を完全なサイクルで実現した。