3ヶ月前

エージェント

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Zihao Wang Xujing Li Yining Ye Junjie Fang Haoming Wang Longxiang Liu Shihao Liang Junting Lu Zhiyong Wu Jiazhan Feng

概要

本稿では、人間が直感的に操作するキーボード・マウス入力に整合した、統一的かつスケーラブルな行動空間を基盤とする汎用ゲームエージェント「Game-TARS」を提案する。従来のAPIやGUIベースのアプローチとは異なり、本アーキテクチャは、OS、ウェブ、シミュレーションゲームなど多様なドメインにわたり大規模な継続的事前学習を可能にする。Game-TARSは、多様な遷移データとマルチモーダルデータを用いて、5000億トークン以上のデータで事前学習が行われた。主な技術として、因果的混乱を低減するための減衰型継続損失関数と、推論コストと推論の深さのバランスを取る効率的な「Sparse-Thinking」戦略を採用している。実験の結果、Game-TARSはオープンワールドのMinecraftタスクにおいて、従来のSOTAモデルと比較して成功率が約2倍に向上し、未体験のウェブ3Dゲームにおいては人間の新規ユーザーに近い汎用性を示した。また、FPSベンチマークではGPT-5、Gemini-2.5-Pro、Claude-4-Sonnetを上回る性能を発揮した。トレーニング時間およびテスト時間におけるスケーリング結果から、統一された行動空間が、ゲーム間およびマルチモーダルデータへのスケーリングにおいても性能向上を維持することが確認された。本研究の結果は、シンプルかつスケーラブルな行動表現と大規模事前学習を組み合わせることで、広範なコンピュータ利用能力を持つ汎用エージェントへの有望な道筋が示されたことを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

エージェント

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Zihao Wang Xujing Li Yining Ye Junjie Fang Haoming Wang Longxiang Liu Shihao Liang Junting Lu Zhiyong Wu Jiazhan Feng

概要

本稿では、人間が直感的に操作するキーボード・マウス入力に整合した、統一的かつスケーラブルな行動空間を基盤とする汎用ゲームエージェント「Game-TARS」を提案する。従来のAPIやGUIベースのアプローチとは異なり、本アーキテクチャは、OS、ウェブ、シミュレーションゲームなど多様なドメインにわたり大規模な継続的事前学習を可能にする。Game-TARSは、多様な遷移データとマルチモーダルデータを用いて、5000億トークン以上のデータで事前学習が行われた。主な技術として、因果的混乱を低減するための減衰型継続損失関数と、推論コストと推論の深さのバランスを取る効率的な「Sparse-Thinking」戦略を採用している。実験の結果、Game-TARSはオープンワールドのMinecraftタスクにおいて、従来のSOTAモデルと比較して成功率が約2倍に向上し、未体験のウェブ3Dゲームにおいては人間の新規ユーザーに近い汎用性を示した。また、FPSベンチマークではGPT-5、Gemini-2.5-Pro、Claude-4-Sonnetを上回る性能を発揮した。トレーニング時間およびテスト時間におけるスケーリング結果から、統一された行動空間が、ゲーム間およびマルチモーダルデータへのスケーリングにおいても性能向上を維持することが確認された。本研究の結果は、シンプルかつスケーラブルな行動表現と大規模事前学習を組み合わせることで、広範なコンピュータ利用能力を持つ汎用エージェントへの有望な道筋が示されたことを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Game-TARS：スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル | 記事 | HyperAI超神経