HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Cosmos 3 développe les modèles d'IA physique

NVIDIA a dévoilé Cosmos 3, un modèle fondamental de pointe dédié à l'intelligence artificielle physique (Physical AI). Destinés aux robots, véhicules autonomes et espaces intelligents, ces systèmes doivent d'abord comprendre leur environnement avant d'y agir. Cosmos 3 répond à ce besoin en unifiant le raisonnement physique, la génération de monde et la génération d'actions au sein d'une seule architecture ouverte. Ce lancement marque un tournant majeur en rendant disponibles non seulement les modèles, mais aussi les scripts d'entraînement, les outils de déploiement et des jeux de données synthétiques, visant à rendre le développement de l'IA physique plus transparent et reproductible. Contrairement aux versions précédentes qui dispersaient la génération du monde et la compréhension physique dans différents modèles, Cosmos 3 unifie ces capacités grâce à une architecture Mixture-of-Transformers (MoT). Cette structure repose sur deux tours qui permettent à un modèle unique d'effectuer à la fois des tâches de raisonnement et de génération. Cette consolidation simplifie considérablement le développement en éliminant la complexité de l'orchestration entre plusieurs modèles et pipelines d'inférence. Deux tailles de modèles sont proposées : Cosmos 3 Super et Nano, permettant aux équipes de choisir la puissance de calcul adaptée à leurs besoins. Le modèle supporte une variété de modalités d'entrée et de sortie via une architecture unifiée. Il peut générer des images physiquement plausibles, prédire des séquences vidéo à partir de données textuelles ou imagées, et agir comme un modèle d'action conditionné par la vidéo ou le texte. Cette polyvalence permet son application dans des domaines variés, allant de la manipulation robotique à la surveillance d'entrepôt et aux scénarios de conduite autonome. Pour soutenir cet écosystème, NVIDIA publie six jeux de données synthétiques sur Hugging Face, couvrant la robotique, la simulation physique, la raison spatiale, le mouvement humain, la conduite et les opérations en entrepôt. Ces données facilitent l'entraînement et le post-entraînement des modèles pour des cas d'usage spécifiques. De plus, le framework d'évaluation humaine (HUE) de NVIDIA évalue la qualité des générateurs de vidéo. Plutôt que de s'appuyer sur des scores automatisés parfois trop subtils, HUE utilise une vérification factuelle binaire basée sur l'alignement sémantique, les lois physiques, le raisonnement géométrique et l'intégrité visuelle. Ce benchmark fournit une mesure de qualité plus fiable pour les décisions de lancement. Les tests ont placé Cosmos 3 au sommet des classements open-source sur plusieurs plateformes, notamment VANTAGE-Bench, R-Bench et PAIBench-G. Le modèle surpasse les concurrents en termes de raisonnement physique et de génération de contenu réaliste pour divers domaines applicatifs. La facilité d'adoption est renforcée par des recettes d'entraînement ouvertes. Les développeurs peuvent effectuer un ajustement fin supervisé (SFT) pour adapter le modèle à leurs propres jeux de données vidéo ou robotiques. Un post-entraînement spécifique pour les actions permet au modèle d'inférer des actions à partir de démonstrations ou de prédire des séquences d'actions futures, le rendant idéal pour l'apprentissage de politiques de robotique. Pour le déploiement en production, les modèles sont disponibles via les microservices NVIDIA NIM. Ces services offrent des temps d'inférence optimisés sans nécessiter de réglages manuels complexes de l'infrastructure. Le microservice Reasoner est déjà disponible, tandis que le module Generator suivra pour fournir la capacité complète de génération. NVIDIA a également mis en place des optimisations pour accélérer l'inférence, accessibles via les conteneurs NGC avec une clé API dédiée. Ce lancement positionne Cosmos 3 comme une référence open-source pour la prochaine génération de systèmes autonomes.

Liens associés