NVIDIA、世界基盤モデルでロボット学習を飛躍的に進化させるCosmos新技術を発表
NVIDIAが開発した「World Foundation Models(WFMs)」を活用したロボット学習支援技術「R²D²」が注目を集めている。物理AI、特にロボットや自律走行車の開発において、現実世界で収集できるラベル付きデータの限界が顕在化しており、これを補うために生成AIを活用する新たなアプローチが求められている。NVIDIAの「Cosmos」プラットフォームは、こうした課題に対応するための世界基礎モデル群を提供している。 Cosmosには3つの主要モデルが含まれる。まず「Cosmos Predict」は、画像・動画・テキストを入力として、物理的に正確な未来の世界状態(動画)を生成する。これにより、自律走行車の開発で必要な複数視点カメラデータを、1つの前方視点動画から合成可能に。たとえば「Cosmos Drive Dreams」では、雪景色や夜間走行など、異なる環境条件をテキストで指定して多様なシナリオを再現している。 次に「Cosmos Transfer」は、セグメンテーションマップやLiDAR、HDマップなどの制御入力とテキストプロンプトを組み合わせ、視覚的に多様な合成データを生成。これにより、ロボット開発における「シミュレーションから現実への転送(sim-to-real)」の精度が向上する。 さらに「Cosmos Reason」は、物理的な常識に基づいた長期的思考(chain-of-thought)を可能にし、生成されたデータの品質を評価・修正する役割を果たす。このモデルは教師あり微調整(SFT)と強化学習を経て訓練されており、ロボットの視覚質問応答や動作計画の学習に活用できる。 これらのWFMsは、合成データ生成(SDG)とデータのキュレーションを効率化し、物理AIの性能向上に貢献。NVIDIAは、SIGGRAPH 2025でこれらの技術を発表予定で、開発者向けにGitHubやHugging Faceでの公開も進めている。この取り組みは、AIが現実世界で安全かつ効果的に動作するための基盤技術として、ロボット開発の未来を大きく変える可能性を秘めている。