HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Cosmos Cookbook : Génération à grande échelle de données synthétiques pour l’IA physique

Pour développer des modèles d’intelligence artificielle physique performants, il est essentiel de disposer à grande échelle de données diverses, contrôlables et ancrées dans la réalité physique. La collecte de grands ensembles de données réelles est souvent coûteuse, longue et parfois dangereuse. NVIDIA Cosmos, grâce à ses modèles fondamentaux d’univers ouverts (WFMs), permet de générer de manière scalable et de haute fidélité des données synthétiques pour l’IA physique, tout en enrichissant les jeux de données existants. Le NVIDIA Cosmos Cookbook constitue un guide complet pour exploiter ces modèles et outils, offrant des recettes étape par étape pour l’inférence, la curatelle, le post-entraînement et l’évaluation. Une composante clé du Cookbook est NVIDIA Cosmos Transfer, un modèle de transfert de style monde à monde. Il permet de générer des données à grande échelle tout en maintenant la cohérence spatiale et temporelle. Ce modèle s’appuie sur plusieurs modalités de contrôle — profondeur, contours, segmentation, contrôle visuel et prompts textuels — pour modifier précisément des éléments comme les arrière-plans, l’éclairage, les textures ou les objets, sans altérer la structure fondamentale de la scène. Parmi les recettes principales : 1. Changement d’arrière-plan : remplacer l’environnement tout en préservant le mouvement du sujet grâce à une combinaison de filtered_edge, de masque inversé (seg) et de contrôle visuel. 2. Modification de l’éclairage : passer d’une scène diurne à une scène nocturne ou d’un intérieur à un extérieur en utilisant contours et contrôle visuel. 3. Changement de couleur ou de texture : modifier l’apparence des surfaces tout en conservant la géométrie grâce au contrôle par contours purs. 4. Transformation d’objets : changer la classe ou la forme d’un objet en combinant contours faibles, segmentation forte et contrôle visuel modéré. Ces recettes sont particulièrement utiles pour les développeurs de robots, notamment pour entraîner des modèles à reconnaître des gestes humains dans divers environnements sans avoir à filmer des centaines de scènes réelles. Dans le domaine du véhicule autonome, Cosmos Transfer permet de réaliser une adaptation de domaine et une augmentation de données synthétiques à partir de vidéos réelles ou simulées. Cela enrichit les jeux de données pour entraîner des modèles de perception ou de planification plus robustes face à des conditions environnementales variées. Pour les robots mobiles, la recette « Sim2Real Data Augmentation » utilise Cosmos Transfer pour transformer des vidéos de simulation en données photoréalistes, réduisant ainsi le fossé entre simulation et réalité. Cette approche améliore significativement la capacité des robots à détecter des obstacles transparents, comme le montre une démonstration avec NVIDIA X-Mobility et Mobility Gen. Enfin, pour les villes intelligentes, le Cookbook propose un flux complet de génération de données synthétiques pour des scénarios de circulation urbaine dynamique, simulant des intersections animées dans CARLA, puis rendant les vidéos photoréalistes via Cosmos Transfer. L’évaluation de la qualité des données synthétiques est assurée par Cosmos Reason, un modèle de vision-langage capable d’évaluer la plausibilité physique des interactions. Le Cookbook est open source : les contributeurs peuvent ajouter de nouvelles recettes, améliorer les workflows et partager leurs expériences. Le processus inclut le fork du dépôt, la création d’une branche, l’ajout de contenu selon les templates, le test local, puis la soumission d’une demande de fusion (pull request). En résumé, le NVIDIA Cosmos Cookbook est une ressource essentielle pour accélérer le développement de l’IA physique, en rendant la génération de données synthétiques accessible, contrôlable et scalable. Il incarne une collaboration active entre NVIDIA et la communauté, au service de l’innovation en IA, robotique, conduite autonome et villes intelligentes.

Liens associés