
要約
本稿では、ロボット操作を統合的に扱う世界基盤プラットフォーム「Genie Envisioner(GE)」を紹介する。GEは、ポリシー学習、評価、シミュレーションを一つの動画生成フレームワーク内に統合した画期的なシステムである。その核となるGE-Baseは、大規模なインストラクション条件付き動画拡散モデルであり、現実世界におけるロボットの相互作用の空間的・時間的・意味的ダイナミクスを構造化された潜在空間に捉え込む。この基盤モデルをもとに、GE-Actは軽量なフローマッチングデコーダを用いて潜在表現を実行可能な行動軌道に変換し、最小限の教師信号で多様な身体構造に対して高精度かつ汎用的なポリシー推論を可能にする。スケーラブルな評価および学習を支えるために、GE-Simは行動条件付きニューラルシミュレータとして機能し、クローズドループ型ポリシー開発に向けた高精細なシミュレーション実行結果を生成する。さらに、視覚的忠実度、物理的整合性、インストラクションと行動の整合性を測定する標準化ベンチマークセット「EWMBench」を搭載することで、GEはインストラクション駆動型かつ汎用的な身体的知能(embodied intelligence)のためのスケーラブルかつ実用的な基盤として確立される。本プラットフォームのすべてのコード、モデル、ベンチマークは公開される予定である。