HyperAIHyperAI

Command Palette

Search for a command to run...

GoogleのSIMA 2がGeminiで推論し、仮想世界で自律学習するAIエージェントとして登場。DeepMindが開発したこの多ゲーム対応エージェントは、人間のデータを一切使わず、自己学習でゲームを攻略。

Google DeepMindは11月13日、次世代の汎用AIエージェント「SIMA 2」の研究プレビューを発表した。SIMA 2は、Googleの大規模言語モデル「Gemini 2.5 flash-lite」を統合し、単なる指示の実行を越えて、環境を理解し、意思決定と計画を自ら行う能力を持つ。この進化は、AIが仮想世界で「学び、思考し、自己改善する」具身型知能(Embodied AI)の実現に向けた重要な一歩とされる。2024年3月に発表された初代SIMA(SIMA 1)は、8種類の3Dゲーム(『无人深空』『山羊模拟器3』など)で基本的な指示に従うことができたが、複雑なタスクの成功率は31%にとどまり、人間の71%に大きく及ばなかった。SIMA 2はこの性能をほぼ2倍に改善し、訓練済み環境では65%の成功率を達成。特に、『无人深空』で「熟したトマトの色の家へ行く」という指示に対して、「熟したトマトは赤いから、赤い家へ行く」という自然言語による内部推論を示すなど、Geminiの言語理解と推論能力が本質的な進化をもたらした。 SIMA 2の最大の特徴は、自己改善能力の導入である。SIMA 1が人間のプレイ動画に依存していたのに対し、SIMA 2は初期に人間データを学習した後、Geminiモデルが自動で新しいタスクを生成し、別途の報酬モデルがエージェントの行動を評価する。この「自己生成の学習循環」により、エージェントは自身の失敗から学び、試行錯誤で新たな行動を習得する。この仕組みは、Genie 3という世界生成モデルと連携することで、未経験の写実的3D環境でも適応可能となり、MineDojoやASKAといった新ゲームでも一定の成功を収めた。また、文字、音声、手書き図、emoji(例:🪓🌳)といった多様な入力に対応し、抽象的な指示を物理的行動に変換する能力も備える。 DeepMindは、SIMA 2を「消費者向けゲームアシスタント」ではなく、将来の実世界ロボットや人工一般知能(AGI)の基盤として位置づけている。研究チームは、システムを「認知層」と「運動制御層」に分けるアーキテクチャを採用しており、SIMA 2が高レベルの理解と計画を担い、下位の物理制御は別途のモデルが行う。このアプローチは、仮想環境で学んだ「赤い物体を探す」「道具を使う」などの抽象スキルを、実世界のロボットに転移する可能性を示唆している。 ただし、課題も残る。長期記憶の制限、マウスキーボード操作の精度不足、リアルな物理シミュレーションとのギャップ(sim-to-real gap)など、実用化にはまだ距離がある。専門家からは、ゲームの視覚構造と現実世界のカメラ入力の違いが大きな障壁であるとの指摘もある。それでも、SIMA 2は仮想環境を活用した大規模な学習、大規模言語モデルとの統合、自己改善メカニズムの実現という三つの柱を確立し、具身AIとAGI研究の新たな節目とされている。現在は学術機関や開発者向けの限定プレビューとして提供されており、今後の協働と応用が注目される。

関連リンク