HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Cosmos 3 で物理 AI 推論・世界・行動モデルを開発

NVIDIA は、物理的推論、世界モデル、行動モデルを統合した「Cosmos 3」という新世代の物理的人工知能(Physical AI)基盤モデルを発表しました。このモデルは、ロボットや自動運転車、スマート空間が現実世界を理解し、未来を予測し、適切な行動を生成することを可能にするために設計されています。以前のリリースでは、世界の生成、物理的理解、制御されたシーンの生成が別々のモデルで処理されていましたが、Cosmos 3 は Mixture-of-Transformers アーキテクチャを用いてこれらを単一のモデルに統合し、開発を大幅に簡素化しました。 NVIDIA は Cosmos 3 モデル、トレーニングスクリプト、デプロイツール、データセットをオープンソース化しており、開発コミュニティにおける再現性と透明性を高めています。Cosmos 3 は「Nano」と「Super」の 2 つのサイズが利用可能で、テキストや画像、動画などの多様な入力・出力モードに対応しています。これにより、物理的に妥当な画像生成、稀なエッジケースの動画生成、予測モデル、推論のためのビジョン・ランゲージ・モデル(VLM)、そしてロボット学習のための行動モデルなど、幅広い応用が可能になります。 さらに、ロボティクス、物理シミュレーション、空間推論、人間の動き、運転、倉庫環境をカバーする 6 つの合成データ生成データセットを Hugging Face で公開しました。評価基準としては、自動評価指標では捕捉が難しい微妙な品質差を把握するための「NVIDIA Cosmos Human Evaluation(HUE)」フレームワークを導入しました。これは、生成された動画の事実検証を人間が行うことで、物理法則や幾何学的推論、視覚的整合性などを客観的に評価するものです。ベンチマーク結果では、Cosmos 3 は物理的推論、生成の質、ドメイン固有の性能においてオープンソース界で最上位の成績を収めています。 開発者は、リリースされたトレーニングレシピを通じて、自身のデータで教師あり微調整や行動後の学習を行うことができます。これにより、特定のドメインやロボットの形態にモデルをカスタマイズすることが可能になります。生産環境でのデプロイには、NVIDIA NIM マイクロサービスが提供されており、インフラの調整なしに高性能な推論を迅速に導入できます。Cosmos 3 の Reasoner NIM は現在利用可能で、今後の Generator NIM により完全な生成機能も提供される予定です。これにより、企業や研究チームは物理 AI の開発をよりオープンで効率的に行うことができます。

関連リンク