HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Cosmos Predict-2 : Améliorations Majeures pour la Génération Rapide de Données Synthétiques Physiquement Réalistes

Synthèse sur le modèle de fond physique AI Cosmos Predict-2 de NVIDIA Introduction Le développement de robots plus intelligents et de véhicules autonomes (VA) passe par la création de modèles d'intelligence artificielle (IA) capables de comprendre la dynamique du monde réel. Ces modèles jouent deux rôles fondamentaux : accélérer la génération de données synthétiques pour aider les systèmes autonomes à apprendre les interactions physiques et les cas rares, et servir de modèles de base pouvant être affinés pour des tâches spécifiques ou adaptés à différents types de sorties. Présentation de Cosmos Predict-2 NVIDIA a introduit Cosmos Predict-2, une version améliorée de son modèle de fond du monde (World Foundation Model, WFM), Cosmos Predict-1. Cette nouvelle version offre des avancées significatives en termes de vitesse, de qualité visuelle et de personnalisation. Cosmos Predict-2 est conçu pour la génération rapide et flexible d'images et de vidéos synthétiques, reflétant avec précision les états futurs du monde réel. Caractéristiques de Cosmos Predict-2 - Variants de modèles : Le modèle existe en deux variantes selon la complexité des tâches : une version 2 milliards de paramètres (2B) pour des prototypes rapides et des applications à faible latence, et une version 14 milliards de paramètres (14B) pour des tâches plus complexes nécessitant une fidélité et une cohérence temporelle élevées. - Flexibilité et performance : Cosmos Predict-2 supporte plusieurs résolutions et fréquences d'images, s'adaptant ainsi aux différentes plateformes matérielles et aux besoins des projets. - Inférence optimisée : Les optimisations de l'inférence permettent de générer des prévisualisations d'images en moins de 5 secondes sur des GPU NVIDIA tels que le GB200 NVL72, le DGX B200 et le RTX PRO 6000. Pour des applications plus exigeantes, la variante 14B offre une qualité supérieure tout en restant performante. Utilisation et post-formation de Cosmos Predict-2 1. Préparation des données : - Collectez environ 100 heures de vidéo de téléopération. - Segmentez les clips en fonction de votre configuration spécifique, y compris le modèle de robot, l'éclairage et les types d'objets. - Assurez-vous que les données incluent des paires texte-visuel. 2. Post-formation du modèle : - Utilisez les scripts de post-formation disponibles dans le dépôt GitHub nvidia-cosmos/cosmos-predict2. - Formez le modèle sur des paires vidéo-texte curatees pour votre tâche et votre environnement spécifiques. 3. Génération de scénarios synthétiques : - Promptez le modèle avec du texte, par exemple, "Ramassez la pomme écrabouillée sous une faible lumière." - Vous pouvez également utiliser une image initiale pour créer des "vidéos rêvées" adaptées à votre domaine. 4. Validation de l'exactitude physique : - Utilisez Cosmos Reason, un modèle de raisonnement IA ouvert et sensible au contexte spatio-temporel, pour évaluer l'exactitude physique des données générées. - Cosmos Reason critique les "rêves" générés, assurant ainsi leur pertinence et leur qualité. Exemples d'applications - Robotics : - Contrôle d'instructions et manipulation d'objets. - Adaptation d'un bras robotique pour ramasser des pommes avec des tiges de résistance variable. - Véhicules autonomes (VA) : - Génération multivue et simulation de cas rares. - Simulation de conduite sur autoroute par temps pluvieux avec synchronisation Lidar/caméra. - Industrie : - Flux de travail conditionnés par l'action. - Maintenance prédictive pour les robots de chaîne de convoyage. - Vision : - Conditionnement de la posture caméra. - Vidéos 3D cohérentes à partir d'une seule image. Lever les défis de la création de données synthétiques NVIDIA Research exploite déjà Cosmos Predict-1 pour des applications avancées en vidéo et en 3D. LeDiffusionRenderer, intégré à Cosmos, combine des données synthétiques de haute qualité et des vidéos du monde réel pour améliorer la réalité de l'éclairage, de la géométrie et des matériaux, offrant un cadre polyvalent pour le contrôle, la randomisation et l'édition de l'éclairage des vidéos. Les modèles Difix3D+ et Cosmos-Drive-Dreams, également intégrés à Cosmos Predict-1, ont amélioré la cohérence temporelle, réduit les clignotements et affiné les détails, répondant ainsi aux principaux défis de la rendu en haute fréquence d'images. Débuter avec Cosmos Predict-2 Cosmos Predict-2 représente une avancée importante dans la génération de données synthétiques de haute fidélité et sensibles aux lois physiques pour la robotic, la vision et les systèmes autonome. Avec une inférence plus rapide, des performances scalables et des options flexibles de résolution et de fréquence d'images, il est conçu pour s'adapter à divers domaines et plateformes matérielles. En association avec d'autres modèles de fond du monde de la famille Cosmos, tels que Cosmos Reason pour le raisonnement IA physique et Cosmos Transfer pour l'augmentation de données, Cosmos Predict-2 permet un cycle complet de formation, génération, validation et affinement. Ce processus accélère le développement de modèles spécifiques au domaine et améliore la performance des systèmes d'IA physiques, les rendant plus intelligents et plus sûrs. Prochaines étapes Pour commencer, rendez-vous sur le dépôt GitHub nvidia-cosmos/cosmos-predict2. Il inclut des scripts d'inférence et de post-formation pour exécuter des points de sauvegarde de modèles ouverts provenant de Hugging Face. Suivez NVIDIA sur Hugging Face pour être informé des nouvelles releases de modèles ouverts. Pour en savoir plus, visionnez la keynote NVIDIA GTC Paris de Jensen Huang, fondateur et PDG de NVIDIA, lors de VivaTech 2025, et découvrez les sessions GTC Paris. Restez à jour en vous abonnant aux actualités de NVIDIA et en rejoignant la communauté de développeurs Omniverse pour des retransmissions en direct sur les dernières avancées en IA physique. Engagement professionnel Les experts de l'industrie voient dans Cosmos Predict-2 une véritable révolution dans la création de données synthétiques pour l'IA physique. Ils soulignent que sa rapidité, sa flexibilité et ses performances accrues simplifient considérablement le processus de développement et d'amélioration des systèmes autonomes. NVIDIA est une entreprise leader dans le domaine de l'IA et de l'informatique visuelle, connue pour ses innovations révolutionnaires et sa capacité à pousser les limites de la technologie. Leur engagement dans l'open-source et leur communauté active de développeurs renforcent leur position sur le marché de la technologie avancée. Conclusion Cosmos Predict-2 marque une étape cruciale dans la création de systèmes d'IA autonome plus performants et mieux adaptés. Grâce à ses capacités de post-formation, de génération précise de données synthétiques et de validation continue, ce modèle offre une base solide pour l'innovation dans des domaines tels que la robotique, les véhicules autonomes et l'industrie. Les développeurs peuvent désormais se concentrer sur la création de solutions spécialisées tout en bénéficiant de l'efficacité et de la précision de Cosmos Predict-2.

Liens associés