HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA crée des données ouvertes pour l'IA

Pour développer des systèmes d'intelligence artificielle fiables et autonomes, NVIDIA mise sur une approche collaborative de données ouvertes. Alors que les capacités des modèles sont souvent mises en avant, la qualité des données d'entraînement reste le facteur déterminant de leur comportement et de leur sécurité. Face à la fragmentation et au manque de transparence des données actuelles, NVIDIA libère massivement des ensembles de données, des modèles et des outils pour accélérer l'innovation et simplifier l'évaluation pour l'ensemble de la communauté. Le développement de données de haute qualité représente un goulot d'étranglement majeur, nécessitant souvent des années et des millions de dollars pour la collecte et l'annotation. Pour réduire cette friction, NVIDIA publie des jeux de données sous licence permissive sur Hugging Face, accompagnés de recettes d'entraînement et de cadres d'évaluation sur GitHub. À ce jour, plus de deux pétaoctets de données ont été partagés à travers plus de 180 jeux de données et 650 modèles ouverts. Ces ressources couvrent divers domaines critiques. La collection Physical AI fournit des données multimodales pour la robotique, incluant plus de 500 000 trajectoires robotiques et 15 téraoctets de données, utilisées par des entreprises comme Runway et Lightwheel. Elle comprend également un ensemble de données pour véhicules autonomes extrêmement diversifié géographiquement, couvrant 25 pays. Pour l'IA souveraine, la collection Nemotron Personas offre des personnes synthétiques culturellement authentiques, utilisées par CrowdStrike pour améliorer la précision de traduction et par NTT Data pour sécuriser des assistants juridiques, réduisant drastiquement les taux d'attaque. Dans le domaine de la biologie, le jeu de données La Proteina propose 455 000 structures protéiques synthétiques pour faciliter la découverte de médicaments sans contraintes de propriété intellectuelle. Pour l'évaluation des performances, SPEED-Bench standardise l'analyse du décodage spéculatif, tandis que Retrieval-Synthetic-NVDocs-v1 permet l'entraînement rapide de systèmes de recherche et de réponse (RAG) en seulement quelques jours. Le jeu de données Nemotron-ClimbMix, utilisé pour l'entraînement initial de grands modèles, a démontré une réduction de 33 % du temps de calcul sur les puces H100 par rapport aux configurations précédentes. Les ensembles de données Nemotron pour l'entraînement préliminaire et postérieur évoluent continuellement pour renforcer les capacités de raisonnement, de codage et de multilinguisme, servant de base à des modèles comme Primus-Labor de Trend Micro et Apriel de ServiceNow. NVIDIA applique une approche de co-design extrême, où ingénieurs et chercheurs collaborent étroitement pour concevoir simultanément les données, les infrastructures et les algorithmes. Cette méthode permet de tester, d'améliorer et d'étendre les données grâce aux retours de la communauté et des partenaires. Des initiatives comme ViDoRe et CVDP soutiennent également le développement de benchmarks ouverts. En libérant ces ressources, NVIDIA encourage l'industrie à construire une couche de référence partagée, similaire à une cuisine ouverte où les recettes sont visibles et le partage est la norme. Cette transparence vise à assurer que la prochaine génération de modèles d'IA et de systèmes agents repose sur des fondations communes, transparentes et vérifiables pour garantir une intelligence artificielle digne de confiance à l'échelle mondiale.

Liens associés

NVIDIA crée des données ouvertes pour l'IA | Articles tendance | HyperAI