HyperAIHyperAI

Command Palette

Search for a command to run...

X-VLA重磅开源:仅0.9B参数刷新机器人基准纪录,实现120分钟无辅助自主叠衣

L’équipe du professeur Liu Yang, directeur exécutif de l’Institut de recherche en intelligence artificielle de Tsinghua (AIR), en collaboration avec les départements d’informatique de Tsinghua et de Fudan, vient de présenter un nouveau modèle fondamental généraliste pour l’intelligence incarnée : X-VLA, développé conjointement avec le Laboratoire de l’Intelligence Artificielle de Shanghai. Ce modèle, entièrement open source (données, code et paramètres), est le premier à accomplir de manière autonome, sans intervention humaine, une tâche complexe de pliage de vêtements sur une durée de 120 minutes. Malgré sa taille modeste de seulement 0,9 milliard de paramètres, X-VLA bat tous les records de performance sur cinq benchmarks simulés de référence, établissant ainsi une nouvelle norme technique et un nouveau paradigme pour le domaine de l’intelligence incarnée. Depuis quelques années, les modèles multimodaux à grande échelle (MLLMs) ont connu un essor fulgurant : de la génération de descriptions d’images à l’analyse de vidéos, leurs capacités semblent illimitées. Mais une question fondamentale demeure : ces modèles comprennent-ils vraiment ce qu’ils voient ? Peuvent-ils raisonner et décider comme un humain face à des tâches complexes et multi-étapes ? Pour répondre à cette question, l’équipe de AIR a conçu EscapeCraft, un environnement de simulation 3D dédié à l’évasion de pièces labyrinthiques, permettant d’évaluer la capacité des modèles à résoudre des problèmes complexes dans un cadre visuel dynamique. Les résultats ont été surprenants : certains modèles voyaient la porte, mais continuaient à tourner autour du mur ; d’autres ramassaient une clé, mais oubliaient comment l’utiliser ; certains tentaient même de « saisir » un canapé, arguant qu’il « pourrait cacher un compartiment secret ». Ces erreurs ne sont pas isolées, mais systématiques : voir ne signifie pas comprendre. Même GPT-4o, l’un des modèles les plus performants, réussit seulement une minorité de sous-tâches avec une compréhension réelle, les autres résultats étant le fruit de hasards ou de mécanismes approximatifs. Les innovations clés de X-VLA reposent sur trois piliers : 1. Une architecture efficace : une structure Transformer simplifiée combinée à un mécanisme de Soft-Prompt qui améliore la scalabilité. 2. Un pré-entraînement à grande échelle sur des données hétérogènes : des données variées et de haute qualité couvrant des scénarios visuels, linguistiques et d’action. 3. Un processus de fine-tuning sur mesure : des stratégies d’apprentissage adaptées, incluant un démarrage progressif et des taux d’apprentissage optimisés, garantissant une migration fluide des connaissances du domaine général vers des tâches spécifiques. Les résultats expérimentaux confirment l’efficacité de cette approche. La courbe de loi d’échelle (Scaling Laws) de X-VLA montre une croissance linéaire et prévisible de la performance avec l’augmentation des paramètres et des données, prouvant la robustesse de l’architecture. En phase de fine-tuning, X-VLA s’adapte rapidement à de nouvelles tâches avec de petites quantités de données spécifiques, démontrant une excellente efficacité. Il atteint des performances SOTA (state-of-the-art) sur des benchmarks comme LIBERO et SIMPLER, et s’impose également en conditions réelles, sur des robots physiques, en exécutant des tâches de saisie et d’assemblage complexes, y compris une tâche de pliage de vêtements autonome et sans limite de temps. De plus, il réussit à être déployé de manière zero-shot dans de nouveaux environnements, illustrant sa capacité exceptionnelle à gérer des tâches longues et complexes. Ce projet, disponible à l’adresse https://thu-air-dream.github.io/X-VLA/ et son code sur GitHub, marque une avancée majeure vers une intelligence incarnée véritablement autonome, compréhensive et accessible.

Liens associés