NVIDIA、物理AI向け次世代推論モデル「Cosmos Reason 2」を発表
NVIDIAは、物理世界におけるAIの意思決定能力を強化する新たなモデル「Cosmos Reason 2」を発表した。これは、視覚・言語・推論を統合したオープンな視覚言語モデル(VLM)で、物理AI分野で最も精度の高いオープンモデルとして、Physical AI BenchおよびPhysical Reasoningリーダーボードで首位を獲得した。前バージョンのCosmos Reason 1に比べ、物体の動きや空間時間的変化をより正確に理解する能力が向上し、人間のような共通知識や物理法則に基づいた段階的問題解決が可能になった。 Cosmos Reason 2は、ロボットやAIエージェントが視覚情報をもとに、計画を立て、環境に適応し、実行する能力を備えている。特に、2D/3Dのポイント位置特定、OCR(文字認識)、マークの理解機能を追加。これにより、動画内に埋め込まれたテキスト(例:雨天時の道路状態)を正確に解釈できる。また、時間軸に沿った詳細なキャプション生成も可能で、データアノテーションや訓練データの品質向上に貢献する。 実際の活用事例として、SalesforceはCobaltロボットの映像を分析し、職場の安全とコンプライアンスを改善。Uberは自律走行車の訓練データとして、正確な動画キャプションを生成し、危険な運転状況の迅速な検出を実現。評価結果では、BLEUスコアが10.6%向上、VQA(質問応答)精度も0.67ポイント増加、LingoQAも13.8%改善と、実用性の大幅な向上が確認された。 さらに、ロボットの動作計画においては、次に取るべきステップに加え、移動経路の座標も出力可能。HitachiやMilestone、VAST Dataなどは、この技術を活用し、自律走行や交通・安全監視のAI化を推進している。 Cosmos Reason 2は、Hugging Faceから2Bおよび8Bバージョンをダウンロード可能。NVIDIAのクラウド環境や、AWS、Google Cloud、Azureでも近日中に提供予定。開発者はbuild.nvidia.comでサンプルプロンプトを試用可能。同社の「Cosmos Cookbook」やドキュメントで、動画検索・要約、ロボット制御、AVデータ処理のための実践的なガイドが提供されている。 NVIDIAは、このモデルを基盤に、未来の物理AIの基盤を築くとしている。
