NVIDIA、GR00T N1.6で実現するシミュレーションから実機への統合型人間型ロボット制御技術
NVIDIAは、人間型ロボットの汎用能力を実現するための新バージョン「Isaac GR00T N1.6」を発表した。このシステムは、シミュレーションから実世界への転送(sim-to-real)を可能にする包括的なワークフローを採用しており、動的環境での認知、運動制御、操作能力の統合を実現する。GR00T N1.6は、エゴセントリックカメラからの視覚情報、ロボットの状態、自然言語指令を統合するマルチモーダルな「視覚-言語-行動(VLA)モデル」で、高レベルの指示を段階的な行動計画に分解し、現実世界のタスクを実行する。このモデルは、NVIDIAの世界モデル「Cosmos Reason」を活用し、シーン理解に基づいた推論とタスク分解を可能にしている。 主な進化点として、視覚認識と推論の精度が向上。2023年版の「Cosmos-Reason-2B VLM」の改良版を採用し、高解像度対応により歪みのない「見える」状態を実現。また、32層の拡散型トランスフォーマー(2倍の規模)と状態依存の行動予測により、滑らかで適応性の高い運動が可能に。さらに、人間の操作データを数千時間分収集・学習したことで、人型ロボット、移動型アーム、両手アームなど多様な体形に一般化する能力が強化され、ゼロショット評価が可能。特定のロボットやタスクに合わせた微調整も効果的。 ロボットの低レベル制御は、NVIDIA Isaac Labで行う全体的強化学習(whole-body RL)により実現。この制御は、歩行、操作、多点接触行動を含む人間らしい動的安定性を備え、シミュレーションで大規模に訓練・検証後、物理ロボットにゼロショットで転送。これにより、高レベルのVLAは運動の安定性ではなく、タスクの順序と環境認識に集中できる。 さらに、COMPASSと呼ばれる合成データを用いたナビゲーション学習により、点対点の移動能力が強化。合成データで学習したナビゲーションポリシーは、低レベルの全体制御と分離され、障害物回避や経路追従、操作と移動のシームレスな連携を実現。実世界の新環境へのゼロショット展開も可能。 視覚ベースの位置推定には、NVIDIA CUDAで加速された視覚SLAM(cuVSLAM)とグローバルローカライゼーション(cuVGL)を活用。事前に作成したマップ(ランドマーク、バーガー、占有地図)とリアルタイムのステレオ画像を用いて、ロボットの正確な位置を低ドリフトで維持。ROS2環境で構築可能なパイプラインを提供し、実用化を支援。 NVIDIAは、この技術を基に、AIを活用した物理的AIシステムの開発を推進。開発者向けに無料の「NVIDIA Robotics Fundamentals」コースや、Isaacライブラリ、ドキュメント、YouTubeチャンネル、開発者フォーラムを提供。CESでのライブ配信も予定。
