HyperAI

NVIDIA Researchが、ロボットの学習技術に向けた3つの神経ネットワークの革新を発表した。これらは、2025年のCoRL（Conference on Robot Learning）で紹介され、実世界でのロボット動作の精度と柔軟性を飛躍的に高めるものだ。まず「NeRD」は、ロボットの複雑な力学を高精度に予測する学習型ダイナミクスモデル。従来のシミュレータでは捉えきれない高自由度の機構や接触状態も、空間不変性を保つロボット中心の状態表現で効率的にモデル化できる。10万件のランダムな軌道データで学習したNeRDは、ANYmal四足歩行ロボットで1000ステップ先の報酬誤差が0.1％未満と極めて高い精度を達成。さらに、シミュレータで学習したFrankaロボットの到達ポリシーを実機にそのまま適用する「ゼロショットsim-to-real」も実現。実データでの微調整により、シミュレーションと実世界のギャップをさらに縮められる。次に「RSE（Reference-Scoped Exploration）」は、人の手の動きをモーションキャプチャで取得し、それをロボットの手に直接転送する技術。従来の「リターゲティング→トラッキング→補正」という3段階の誤差蓄積プロセスを、一つの最適化ループで統合。人間の動作を「厳密な正解」とせず「ソフトなガイドライン」として扱うことで、ロボットの身体的制約に合わせた独自の動きを学習可能に。この仕組みで学習した状態ベースのポリシーを、視覚情報（単一視点深度画像）と目標から生成する制御ポリシーに変換。これにより、InspireやAllegroといったロボットハンドで、バナナやスマートフォン、カップなど多様な物体を操作する能力が向上し、成功率は最大20％増加。最後に「VT-Refine」は、視覚と触覚を統合した両手による精密な組立作業に特化したフレームワーク。わずか30回の実世界の実演データから初期ポリシーを学習し、デジタルツイン上で強化学習で精緻化。触覚センサーのデータはGPUベースのTacSLライブラリでシミュレート。視覚情報（エゴセントリックカメラの点群）と触覚情報、関節位置を入力として、高精度な制御を実現。実世界での成功率は、視覚のみの場合より約20％、視覚＋触覚では40％向上。シミュレーションから実機への転送精度はわずか5～10％低下するが、全体として30％以上の改善が見られた。これらの技術は、シミュレーションと実世界のギャップを縮め、人間並みの柔軟な操作能力を持つロボットの実現に向けた重要な一歩である。NVIDIAは、これらの成果を含む最新研究を、9月27日から10月2日までの韓国・ソウルで開催されるCoRLとHumanoidsで発表予定。開発者向けの無料コースや、50の家庭内タスクを含む「2025 BEHAVIORチャレンジ」にも参加できる。

関連リンク

関連リンク

関連リンク

論文集 | 科学研究におけるAI活用の主要成果100選：2025年までの技術革新の概観

論文集 | 科学研究におけるAI活用の主要成果100選：2025年までの技術革新の概観

Command Palette

NVIDIA、3つの神経ネットワーク技術でロボット学習を飛躍的に進化させたと発表

関連リンク

Command Palette

NVIDIA、3つの神経ネットワーク技術でロボット学習を飛躍的に進化させたと発表

関連リンク

Command Palette

NVIDIA、3つの神経ネットワーク技術でロボット学習を飛躍的に進化させたと発表

関連リンク

論文集 | 科学研究におけるAI活用の主要成果100選：2025年までの技術革新の概観

論文集 | 科学研究におけるAI活用の主要成果100選：2025年までの技術革新の概観