NVIDIA lance Cosmos Reason 2 : un pas de géant vers l’IA physique avec un raisonnement avancé
NVIDIA a lancé Cosmos Reason 2, la dernière avancée dans la série des modèles open-source de vision-langage à raisonnement pour l’intelligence artificielle physique. Ce modèle dépasse sa prédécesseur en précision et occupe la première place sur les classements Physical AI Bench et Physical Reasoning, devenant ainsi le meilleur modèle open-source pour la compréhension visuelle. Conçu pour combler le fossé entre les capacités actuelles des modèles de vision-langage et les compétences humaines, Cosmos Reason 2 permet aux robots et aux agents intelligents de percevoir, comprendre, planifier et agir dans le monde physique avec une logique plus proche de celle des humains. Alors que les modèles de vision-langage ont fait des progrès significatifs dans la reconnaissance d’objets ou de motifs, ils peinent encore à maîtriser des tâches intuitives comme la planification à plusieurs étapes, la gestion de l’incertitude ou l’adaptation à de nouveaux contextes. Cosmos Reason 2 intègre une compréhension fine de la physique, du bon sens et des connaissances préalables pour anticiper les mouvements des objets dans l’espace et le temps. Il permet ainsi de résoudre des problèmes complexes de manière séquentielle et réfléchie. Parmi ses principales innovations : la prise en charge du OCR (reconnaissance optique de caractères), la localisation 2D/3D de points, et la capacité à interpréter des marques ou textes intégrés dans des vidéos. Ces fonctionnalités ouvrent la voie à des applications concrètes. Par exemple, un agent d’analyse vidéo peut évaluer l’état d’une route sous la pluie en lisant des panneaux ou des marquages. NVIDIA propose un blueprint pour la recherche et la synthèse vidéo (VSS) qui permet aux développeurs de créer rapidement des agents d’analyse vidéo en s’appuyant sur Cosmos Reason 2. Des entreprises comme Salesforce utilisent le modèle via le système Agentforce et le blueprint VSS pour améliorer la sécurité au travail, en analysant les vidéos capturées par des robots Cobalt. Uber explore également Cosmos Reason 2 pour générer des légendes précises et recherchables dans les données d’entraînement des véhicules autonomes, ce qui permet d’identifier efficacement des scénarios critiques. Des tests montrent des améliorations significatives : +10,6 % sur le score BLEU, +0,67 point en VQA (question-réponse), et +13,8 % en LingoQA, démontrant une adaptation efficace au domaine des véhicules autonomes. Dans le domaine de la robotique, Cosmos Reason 2 sert de « cerveau » pour des modèles VLA (vision-langage-action), en fournissant non seulement les étapes de planification, mais aussi des coordonnées de trajectoire précises pour les bras robotiques. Par exemple, il peut déterminer le chemin exact que doit suivre une pince pour déplacer un rouleau de ruban adhésif dans un panier. Des plateformes comme Encord intègrent nativement le modèle dans leurs outils d’annotation de données, facilitant le développement de systèmes robotiques. Les modèles Cosmos sont désormais disponibles sur Hugging Face (2B et 8B), dans le cloud via AWS, Google Cloud et Microsoft Azure, ou directement sur build.nvidia.com. Des ressources comme le Cosmos Cookbook et la documentation détaillée aident les développeurs à s’impliquer rapidement. D’autres modèles de la famille Cosmos, comme Cosmos Predict 2.5 (prévision d’états physiques) ou NVIDIA GR00T N1.6 (modèle dédié aux robots humanoïdes), complètent l’écosystème. Experts du secteur soulignent que Cosmos Reason 2 représente une avancée majeure vers l’IA physique autonome, en particulier pour des applications industrielles, de la sécurité et de la mobilité. Son ouverture et son intégration croissante dans les pipelines de développement en font un pilier fondamental du prochain cycle d’innovation en robotique et en vision par ordinateur.
