HyperAI

NVIDIAは、人間型ロボットの汎用能力を実現するための新バージョン「Isaac GR00T N1.6」を発表した。このシステムは、シミュレーションから実世界への転送（sim-to-real）を可能にする包括的なワークフローを採用しており、動的環境での認知、運動制御、操作能力の統合を実現する。GR00T N1.6は、エゴセントリックカメラからの視覚情報、ロボットの状態、自然言語指令を統合するマルチモーダルな「視覚-言語-行動（VLA）モデル」で、高レベルの指示を段階的な行動計画に分解し、現実世界のタスクを実行する。このモデルは、NVIDIAの世界モデル「Cosmos Reason」を活用し、シーン理解に基づいた推論とタスク分解を可能にしている。主な進化点として、視覚認識と推論の精度が向上。2023年版の「Cosmos-Reason-2B VLM」の改良版を採用し、高解像度対応により歪みのない「見える」状態を実現。また、32層の拡散型トランスフォーマー（2倍の規模）と状態依存の行動予測により、滑らかで適応性の高い運動が可能に。さらに、人間の操作データを数千時間分収集・学習したことで、人型ロボット、移動型アーム、両手アームなど多様な体形に一般化する能力が強化され、ゼロショット評価が可能。特定のロボットやタスクに合わせた微調整も効果的。ロボットの低レベル制御は、NVIDIA Isaac Labで行う全体的強化学習（whole-body RL）により実現。この制御は、歩行、操作、多点接触行動を含む人間らしい動的安定性を備え、シミュレーションで大規模に訓練・検証後、物理ロボットにゼロショットで転送。これにより、高レベルのVLAは運動の安定性ではなく、タスクの順序と環境認識に集中できる。さらに、COMPASSと呼ばれる合成データを用いたナビゲーション学習により、点対点の移動能力が強化。合成データで学習したナビゲーションポリシーは、低レベルの全体制御と分離され、障害物回避や経路追従、操作と移動のシームレスな連携を実現。実世界の新環境へのゼロショット展開も可能。視覚ベースの位置推定には、NVIDIA CUDAで加速された視覚SLAM（cuVSLAM）とグローバルローカライゼーション（cuVGL）を活用。事前に作成したマップ（ランドマーク、バーガー、占有地図）とリアルタイムのステレオ画像を用いて、ロボットの正確な位置を低ドリフトで維持。ROS2環境で構築可能なパイプラインを提供し、実用化を支援。 NVIDIAは、この技術を基に、AIを活用した物理的AIシステムの開発を推進。開発者向けに無料の「NVIDIA Robotics Fundamentals」コースや、Isaacライブラリ、ドキュメント、YouTubeチャンネル、開発者フォーラムを提供。CESでのライブ配信も予定。

関連リンク

関連リンク

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

Command Palette

NVIDIA、GR00T N1.6で実現するシミュレーションから実機への統合型人間型ロボット制御技術

関連リンク

Command Palette

NVIDIA、GR00T N1.6で実現するシミュレーションから実機への統合型人間型ロボット制御技術

関連リンク

Command Palette

NVIDIA、GR00T N1.6で実現するシミュレーションから実機への統合型人間型ロボット制御技術

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする