NVIDIA が AI 用オープンデータ構築を解説
AI 進歩の根幹にあるのはモデルそのものではなく、訓練に使用されるデータです。自律的な AI エージェントが普及する中で、データの透明性とアクセス可能性はシステムの信頼性を決定づける重要な要素となっています。しかし、現状では訓練データが散在し、クローズドなままのケースが多いため、開発の効率化が阻害されています。この課題解決を目指し、NVIDIA は 2024 年以降、許可付きライセンスのデータセットを Hugging Face に、訓練レシピと評価フレームワークを GitHub に公開する取り組みを強化しています。これまでに 180 以上のデータセットと 650 以上のオープンモデルを通じて 2 ペタバイト以上のデータが提供され、開発者がモデル構築を迅速かつ低コストで行える環境を整えています。 具体的には、ロボット工学から医療、自律走行車まで多岐にわたる分野で実用データが公開されています。例えば、物理 AI コレクションには 50 万を超えるロボット軌道データや、25 カ国 2500 都市以上の広範な自動運転センサーデータが含まれており、NVIDIA の GR00T モデルや他社の世界モデル開発に活用されています。また、合成データを用いた Nemotron パーソナデータセットは、CrowdStrike による翻訳精度の大幅向上や、NTT データによる法的 QA の精度向上など、実社会での即効性を示しています。さらに、タンパク質構造解析を目的とした La Proteina や、ベクタ検索システムの評価を支援する Retrieval-Synthetic-NVDocs-v1 など、専門的な用途に対応したデータも提供されています。 NVIDIA が提供するデータは、言語モデルの基盤となる「ネモトロン」シリーズの訓練にも不可欠です。事前学習用データでは、数学やコーディング、STEM 分野の高品質なデータへの注力により、モデルの推論能力を強化しています。事後学習用データでは、多言語対応や複雑な指示の理解、自律的な行動パターンを学習させるためのデータが整備され、サービス向け AI や軽量モデルの開発を後押ししています。特に、高品質なデータ混合物を特定する CLIMB アルゴリズムを用いた ClimbMix データセットは、計算資源の削減とモデル性能の向上に寄与し、コミュニティでの採用が広がっています。 この Open Data 戦略は、データ戦略家、研究者、エンジニア、政策担当者が緊密に連携する「エクストリーム・コデザイン」アプローチに基づいています。公開されたデータと手法はコミュニティによってテストされ、得られた知見が次世代のデータセットや内部システムの改善にフィードバックされる循環構造を構築しています。CES 2026 の基調講演においても、業界と学術界が連携したベンチマーク開発の重要性が強調され、今後の AI 基盤の共有体制がさらに強化されると期待されています。NVIDIA は、すべての要素が見えるオープンキッチンと同様に、データやレシピを公開することで、開発者が安心して次世代の信頼できる AI システムを構築できる土壌を提供し続けています。
