谷歌发布Genie 3:一句话生成可交互的AI游戏世界
グーグルのDeepMindは8月5日、世界モデル「Genie 3」を発表した。この最新AIモデルは、テキストや画像の入力だけで、ユーザーとAIエージェントがリアルタイムでインタラクション可能な3D仮想世界を生成する。従来のゲーム開発のように事前に設計された環境ではなく、一言の指示「雨が降るサイバーパンク都市」や「陽光が差し込むファンタジーの森」だけで、即座に世界を創り出す点が特徴だ。 Genie 3の最大の進歩は、リアルタイム性と記憶の持続性の実現。前バージョンのGenie 2は20秒程度の短時間で、360pの低解像度で動作していたが、Genie 3は720p、24fpsで数分間にわたる継続的な操作が可能。さらに、環境の状態を一時的に記憶する能力を備え、ユーザーが壁に落書きした後、別の場所を探索しても、戻ってきた際にその痕跡が残る。これは、過去のモデルが「記憶を失う」問題を解決した重要な一歩である。 また、ユーザーが途中で「鹿が群れをなす」といったテキスト指令を入力すると、環境にリアルタイムで動的なイベントが発生する「可提示世界イベント」機能も搭載。天候の変化や、異形の存在(例:天鹅绒の背広を着たゴリラ)の出現も可能で、仮想世界が「自由に編集可能なサンドボックス」としての可能性を広げた。 DeepMindは、Genie 3の目的は娯楽を超えて、汎用人工知能(AGI)の実現に向けた基盤づくりにあると説明する。このモデルは、AIエージェント「SIMA」の訓練環境として活用されており、自然言語の指示に従って複数の3D世界で任務を遂行する能力を学ばせている。これにより、将来的な自律ロボットや物流システムの開発に役立つ、高効率で多様なシミュレーション環境が実現可能になる。 ただし、現状では行動範囲が限定的で、複数エージェントの協調動作や高精度な地理再現、テキストの明確な表示など、課題が残っている。また、Genie 3は現時点で一般公開されておらず、一部の研究者とクリエイター向けの「限定研究プレビュー」のみ提供されている。グーグルは、技術のリスクを検証しつつ、責任ある進展を目指すとしている。 Genie 3は、SF映画に描かれる「全息甲板」に近づく最初の実証モデルとして、AIと現実の境界を再定義する可能性を示している。