HyperAIHyperAI

Command Palette

Search for a command to run...

NeurIPSでNVIDIAがデジタル・物理AI向けにオープンモデル開発を推進、自動運転研究用の新モデルとツールを発表

NVIDIAは、人工知能(AI)の次世代基盤として「物理AI」の発展を推進するため、NeurIPS 2024会議で複数のオープンソース技術を発表した。同社は、研究者や開発者が実世界の環境でAIを活用できるよう、視覚・言語・行動を統合する「推論型視覚言語行動モデル(VLA)」や、音声AI、AI安全、合成データ生成ツールなど、幅広い技術を公開。特に注目されるのは、自動運転分野向けに開発された「NVIDIA DRIVE Alpamayo-R1(AR1)」で、世界初の産業規模のオープン推論VLAモデルとして位置づけられる。AR1は、NVIDIAの推論基盤「Cosmos Reason」を活用し、複雑な交通状況(歩行者混在の交差点、自転車専用レーンに駐車した車両など)において、人間のような「常識的」な判断を可能にする。モデルは状況を段階的に分析し、複数の走行経路を検討した上で、最適な行動を決定する。この推論プロセスは、行動の根拠(理由)を記録する「推論トレース」を生成し、透明性と信頼性を高める。AR1はGitHubとHugging Faceで公開され、自動運転のベンチマークや実験的アプリケーション開発に非営利利用が可能。また、AR1の評価に使用されたデータセットは「NVIDIA Physical AI Open Datasets」で公開され、評価フレームワーク「AlpaSim」もオープンソース化された。 さらに、物理AI開発者向けに「Cosmos Cookbook」をリリース。このガイドには、データ収集、合成データ生成、モデル評価までをカバーするステップバイステップのレシピや、推論学習(post-training)のワークフローが含まれ、開発者が自社用途に応じてモデルをカスタマイズできる。Lidarデータ生成モデル「LidarGen」や、ロボットの行動ポリシー学習に活用できる「Isaac Lab/Sim」連携例も公開。ETHチューリッヒの研究チームは、Cosmosモデルを用いたリアルな3Dシーン生成に関するNeurIPS論文を発表。パートナー企業としてVoxel51、Figure AI、ForetellixなどもCosmos WFMs(ワークフロー・モデル)を活用した新技術を開発。 一方、デジタルAI分野では、マルチスピーカー音声モデルや推論能力を持つ新モデル、AI安全向けデータセット、強化学習用の高品質合成データ生成ツールを公開。NVIDIA NemotronシリーズとNeMoツールを活用し、CrowdStrikeやPalantir、ServiceNowなどがセキュアで専門的なエージェントAIを開発。NeurIPSでの「Nemotron Summit」では、Bryan Catanzaro氏が基調講演を行い、オープンソースへの取り組みを強調。 これらの取り組みは、AI研究の透明性と進展を加速させ、NVIDIAが物理AIの基盤技術を牽引する姿勢を示している。業界では、NVIDIAのオープン戦略がAIの民主化と実世界応用の加速に寄与すると評価されている。

関連リンク

NeurIPSでNVIDIAがデジタル・物理AI向けにオープンモデル開発を推進、自動運転研究用の新モデルとツールを発表 | 人気の記事 | HyperAI超神経