HyperAIHyperAI
Back to Headlines

NVIDIA dévoile Cosmos : des modèles fondamentaux du monde pour révolutionner l’entraînement des robots

il y a 5 jours

L’avancement des systèmes d’intelligence artificielle physique, notamment en robotique et véhicules autonomes, rencontre un défi croissant : la nécessité de données étiquetées de haute qualité, difficilement accessibles à grande échelle dans le monde réel. Pour relever ce défi, NVIDIA Research a lancé NVIDIA Cosmos, une plateforme dédiée au développement de modèles fondamentaux du monde (World Foundation Models, WFMs), capables de simuler, prédire et raisonner sur des états futurs du monde en s’appuyant sur les dynamiques réelles des environnements physiques. Ces modèles constituent une avancée clé dans la génération de données synthétiques (SDG) pour l’entraînement d’IA physique. Cosmos repose sur trois types de modèles complémentaires : Cosmos Predict, Cosmos Transfer et Cosmos Reason. Le premier, Cosmos Predict, prend en entrée des images, vidéos ou textes pour générer des séquences vidéo cohérentes et physiquement plausibles, permettant ainsi d’accélérer la création de données pour l’entraînement d’IA. Par exemple, Single2MultiView, une version post-entraînée de Cosmos Predict, transforme une vidéo à vue frontale en plusieurs perspectives synchronisées, essentielle pour le développement de véhicules autonomes. Des applications comme Cosmos Drive Dreams ou DiffusionRenderer permettent de simuler des conditions météorologiques variées ou de modifier la lumière dans des vidéos, offrant une grande diversité de scénarios pour l’entraînement. Cosmos Transfer, quant à lui, permet une génération contrôlée de données synthétiques en intégrant des entrées multimodales comme des cartes HD, des cartes de profondeur, des cartes d’arêtes ou des points clés. Grâce à des prompts textuels, il génère des scènes variées à partir d’une même vidéo d’entrée — par exemple, une même route transformée en scène enneigée ou nocturne — ce qui enrichit les jeux de données avec des cas extrêmes et améliore le transfert du simulateur vers le monde réel. Enfin, Cosmos Reason est un modèle de vision-langage-action (VLA) conçu pour raisonner sur des séquences d’actions complexes à long terme. En s’appuyant sur une double phase d’entraînement supervisé (SFT) et de renforcement, il comprend le bon sens physique et peut évaluer la pertinence des actions dans des scénarios réels. Il sert de critique lors de la génération de données, en vérifiant que les séquences d’actions sont cohérentes et réalisables, ce qui garantit une qualité élevée des données d’entraînement. Ces modèles s’inscrivent dans une démarche globale de workflow d’entraînement robotique où la synthèse, la curation et l’optimisation des données sont automatisées. NVIDIA propose des ressources accessibles via GitHub, Hugging Face et des publications scientifiques, notamment pour des projets comme Isaac GR00T-Dreams ou Cosmos-Drive-Dreams. Des experts du secteur soulignent que ces avancées marquent une étape cruciale vers une IA physique plus robuste, capable de généraliser à des environnements réels sans dépendre exclusivement de données réelles. Les modèles de NVIDIA, notamment grâce à leur capacité à intégrer des connaissances physiques et à raisonner de manière contextuelle, ouvrent la voie à des robots capables de planification, d’adaptation et d’interaction complexe. Pour les développeurs, ces outils, accompagnés de formations gratuites sur les fondamentaux de la robotique NVIDIA, représentent une porte d’entrée puissante vers l’ère des systèmes d’IA physique autonome.

Related Links

NVIDIA dévoile Cosmos : des modèles fondamentaux du monde pour révolutionner l’entraînement des robots | Gros titres | HyperAI