HyperAIHyperAI

Command Palette

Search for a command to run...

Gemini Robotics 1.5で物理世界にAIエージェントを実現、複雑な多段階タスクを自律的に実行

グーグルがAIロボットの進化を加速する新たなモデル「Gemini Robotics 1.5」を発表した。このモデルは、AIが物理世界で複雑な多段階タスクを自律的に遂行できるようにする「エージェント型」の仕組みを実現。開発者は、Google AI Studioを通じてGemini Robotics-ER 1.5をAPIで利用可能にし、一部のパートナーには既に提供されている。 Gemini Robotics 1.5は、2つのモデルが連携して動作する。まず「Gemini Robotics-ER 1.5」は、ロボットの「高レベル脳」として、環境理解、計画立案、自然言語対話、ツール利用(例:Google検索)などを統合的に管理。次に「Gemini Robotics 1.5」が視覚と言語理解を活用し、具体的な行動を実行。両モデルの連携により、ロボットは「場所に応じた分別」など、複雑な実世界タスクを段階的に解き、成功を予測・検証しながら実行できる。 特に注目すべきは、異なるロボット(ALOHA 2、Apollo、Frankaなど)間で学習した動作を相互に転送できる「エモーディッド学習」の実現。これにより、特定のロボットに特化した再訓練が不要となり、開発効率が飛躍的に向上する。 安全性面でも進展があり、AI原則に基づく責任ある開発を推進。安全評価ベンチマーク「ASIMOV」のアップグレード版を公開し、セマンティックな安全理解と物理的安全制御(衝突回避など)を強化。実験では、Gemini Robotics-ER 1.5が15の学術的ベンチマークでトップ性能を記録。 この進展は、AIが「命令に反応する」レベルを越え、「自ら考える」「計画する」「道具を使う」一般的な知能(AGI)に近づく重要な一歩とされる。グーグルは今後も研究コミュニティと協力し、物理世界でのAIロボットの可能性を広げていく。

関連リンク