
私たちは「Matrix-Game」を紹介します。これは、制御可能なゲーム世界生成のためのインタラクティブな世界基礎モデルです。Matrix-Gameは、環境理解のための大規模無ラベル事前学習と、インタラクティブビデオ生成のためのアクションラベル付き学習という2段階のパイプラインを使用して訓練されます。これをサポートするために、「Matrix-Game-MC」という包括的なMinecraftデータセットを整備しました。このデータセットには、2,700時間以上の無ラベルゲームプレイビデオクリップと、1,000時間以上の高品質で細かいキーボードおよびマウスアクション注釈が付いたクリップが含まれています。当社のモデルは、リファレンス画像、動きのコンテキスト、およびユーザー操作に基づく制御可能な画像から世界生成パラダイムを採用しています。170億以上のパラメータを持つMatrix-Gameは、キャラクター操作やカメラ移動を精密に制御しながら、高い視覚的品質と時間的一貫性を維持することができます。性能評価のために、「GameWorld Score」という統一ベンチマークを開発しました。このベンチマークは、Minecraft世界生成における視覚的品質、時間的品質、操作制御性、物理規則理解度を測定します。広範な実験により、Matrix-Gameが既存のオープンソースMinecraft世界モデル(OasisやMineWorldなど)に対してすべての指標で一貫して優れていることが示されました。特に制御性と物理的一貫性において大きな進歩が見られました。二重盲検の人間評価でもMatrix-Gameの優位性が確認され、多様なゲームシナリオにおいて知覚的に現実的で精密に制御できるビデオを生成する能力が強調されています。インタラクティブな画像から世界生成に関する今後の研究を促進するため、Matrix-GameのモデルウェイトとGameWorld Scoreベンチマークをhttps://github.com/SkyworkAI/Matrix-Gameでオープンソース化します。