HyperAIHyperAI

Command Palette

Search for a command to run...

Google が Gemini Robotics-ER 1.6、実世界タスクで生体推論を強化

ロボットが日常生活や産業で真に役立つためには、単なる指示の遂行を超え、物理世界について推論する能力が不可欠です。この「身体化された推論」こそが、デジタルな知能と物理的な行動を結ぶ鍵となります。Google は本日、環境理解の精度を飛躍的に向上させた推論重視のモデル「Gemini Robotics-ER 1.6」を発表しました。このモデルは空間推論とマルチビュー理解を強化し、次世代の物理エージェントに新たな自律性の水準をもたらします。Gemini Robotics-ER 1.6 は、視覚的・空間的理解、タスク計画、タスク成功の検出など、ロボットにとって重要な推論機能に特化しています。これはロボットのハイレベルな推論エンジンとして機能し、ネイティブに Google 検索やビジョン言語行動モデル(VLA)、第三者が定義した関数を呼び出してタスクを実行します。この新しいモデルは、 Gemini Robotics-ER 1.5 や Gemini 3.0 Flash と比較して著しく改善されており、特に指差したり、カウントしたり、タスクの成功を検出したりする物理的な推論能力が向上しました。また、ボストン・ダイナミクスとの密接な協力を通じて発見された新たな機能として、計器の読取りが可能になりました。これにより、複雑な圧力計や sight glass(視認窓)の読み取りもロボットが実行できるようになります。Gemini Robotics-ER 1.6 は今日より、Gemini API と Google AI Studio を通じて開発者向けに利用可能となりました。開発支援として、モデルの構成方法や身体化された推論タスクのプロンプト例を含む開発者向け Colab ノートブックも公開されています。

関連リンク