Meta Dévoile un Nouveau Modèle Open Source 30 fois Plus Rapide que le Nvidia Cosmos pour la Planification et la Prédiction Automatisées
Meta a récemment lancé son dernier modèle de monde open source, le V-JEPA 2, qui se distingue par une vitesse d'exécution 30 fois supérieure à celle du modèle Cosmos développé par NVIDIA. Ce progrès marque un véritable défi dans l'optimisation des performances des modèles d'apprentissage automatique. Lors de sa présentation, la société a démontré l'utilisation du V-JEPA 2 pour équiper des robots d'agents planificateurs autonomes dans des environnements entièrement nouveaux, sans avoir recours à aucune donnée spécifique préalable ou entraînement spécial. Les robots disposent de bras manœuvrables Franka, sur lesquels ont été installés des capteurs V-JEPA 2-AC (la version conditionnée par l'action). Ces agents ont réussi à manipuler des objets, les saisir et les placer avec précision à partir de simples images cibles, réalisant ainsi des tâches complexes avec une grande autonomie. Cette réussite illustre comment l'apprentissage supervisé par soi-même peut permettre de développer des modèles capables de s'adapter à l'environnement physique en utilisant uniquement des données réseau et un faible volume d'échanges de données robotiques. En effet, l'un des défis majeurs dans la création de modèles de monde est de permettre aux systèmes d'effectuer des tâches précises dans des situations imprévues, sans avoir reçu une formation exhaustive. Le V-JEPA 2 montre comment cet objectif peut être atteint grâce à des méthodes d'apprentissage basées sur des interactions minimales et un ensemble de données génériques. Le modèle V-JEPA 2 présente néanmoins quelques limitations. Par exemple, lors des prédictions d'actions, il ne prend pas en compte les paramètres de la caméra, ce qui peut affecter la fiabilité des résultats. Il dépend plutôt de la détection optimale des angles de vue par le biais de mouvements manuels. De plus, les erreurs cumulatives et les explosions de l'espace de recherche peuvent limiter la capacité du modèle à accomplir des tâches nécessitant des horizons tempornels étendus. Pour développer le V-JEPA 2, l'équipe de Meta a exploré divers modèles de prédiction, connus sous le nom de JEPA, capables d'anticiper plusieurs types de données sensorielles, notamment visuelles, auditives et tactiles. Ces modèles exploitent des schémas d'apprentissage non supervisés, ce qui leur permet d'apprendre à partir de grandes quantités de données sans needing d'annotations manuelles. Cette approche non seulement réduit les coûts de données, mais elle accélère également considérablement le processus de formation et améliore la robustesse du modèle face à des variations dans l'environnement. En résumé, le V-JEPA 2 de Meta représente une avancée significative dans le domaine des modèles de monde, offrant une vitesse d'exécution remarquable et une flexibilité accrue pour les applications robotiques dans des environnements inconnus. Bien qu'il présente certaines limitations, comme les erreurs cumulatives et l'absence d'intégration des paramètres de la caméra, l'innovation de Meta ouvre de nouvelles perspectives pour l'autonomie des robots et l'apprentissage de tâches complexes avec des ressources limitées. Pour une exploration plus approfondie, vous pouvez consulter les références suivantes : - Blog AI Meta - Code Source GitHub - Hugging Face Collection - Publication scientifique Meta