Command Palette
Search for a command to run...
Game-TARS:スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル
Game-TARS:スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル
概要
本稿では、人間が直感的に操作するキーボード・マウス入力に整合した、統一的かつスケーラブルな行動空間を基盤とする汎用ゲームエージェント「Game-TARS」を提案する。従来のAPIやGUIベースのアプローチとは異なり、本アーキテクチャは、OS、ウェブ、シミュレーションゲームなど多様なドメインにわたり大規模な継続的事前学習を可能にする。Game-TARSは、多様な遷移データとマルチモーダルデータを用いて、5000億トークン以上のデータで事前学習が行われた。主な技術として、因果的混乱を低減するための減衰型継続損失関数と、推論コストと推論の深さのバランスを取る効率的な「Sparse-Thinking」戦略を採用している。実験の結果、Game-TARSはオープンワールドのMinecraftタスクにおいて、従来のSOTAモデルと比較して成功率が約2倍に向上し、未体験のウェブ3Dゲームにおいては人間の新規ユーザーに近い汎用性を示した。また、FPSベンチマークではGPT-5、Gemini-2.5-Pro、Claude-4-Sonnetを上回る性能を発揮した。トレーニング時間およびテスト時間におけるスケーリング結果から、統一された行動空間が、ゲーム間およびマルチモーダルデータへのスケーリングにおいても性能向上を維持することが確認された。本研究の結果は、シンプルかつスケーラブルな行動表現と大規模事前学習を組み合わせることで、広範なコンピュータ利用能力を持つ汎用エージェントへの有望な道筋が示されたことを示している。