HyperAIHyperAI

Command Palette

Search for a command to run...

0.9B参数刷新五项SOTA,清华团队打造“小而强”通用机器人模型

Si l’on ne prenait pas en compte son domaine de recherche, il serait difficile de relier directement Zhān Xiānyuán à l’intelligence incarnée. Il a d’abord étudié l’ingénierie civile à Tsinghua, puis a poursuivi un doctorat en ingénierie des transports à l’Université Purdue aux États-Unis, passant la moitié de son temps en recherche en apprentissage automatique au sein du département d’informatique. Après son doctorat, il a rejoint le Microsoft Research Asia, avant de suivre son ancien supérieur au sein de JD Technology, où il a mené un projet de optimisation de centrales thermiques basé sur l’apprentissage par renforcement hors ligne, et a assuré sa mise en production dans plusieurs centrales en Chine. En 2021, il est revenu à Tsinghua pour se consacrer entièrement à la recherche académique. « En somme, je voulais simplement pouvoir faire ce qui m’intéresse librement », explique-t-il avec un sourire, en résumant les raisons de ses diverses transitions. À première vue, ses parcours successifs – de l’ingénierie civile à l’ingénierie des transports, de l’automatisation industrielle à l’automobile autonome et à l’intelligence incarnée – semblent des changements de voie. Mais si l’on abstrait ces expériences autour d’une seule question fondamentale, une ligne directrice émerge clairement : comment utiliser les techniques de décision optimisée fondées sur les données pour permettre aux agents intelligents de mieux résoudre des problèmes dans le monde physique réel. C’est précisément cette vision qui l’a conduit à s’intéresser très tôt à l’intelligence incarnée dans l’ère des grands modèles. Il a compris que le véritable goulot d’étranglement des robots généralistes n’était pas la taille du modèle, mais la hétérogénéité croisée entre les différentes incarnations – les différences considérables en matériel, perception et contrôle entre robots différents. Ces disparités créent des silos de données peu exploitables, et rendent souvent instables les transferts d’apprentissage entre systèmes. C’est dans ce contexte que X-VLA est né. Au cours des 11 derniers mois, Zhān et ses étudiants ont expérimenté des dizaines de structures de modèles : des espaces d’actions unifiés, des représentations intermédiaires compressées, jusqu’à la manière dont le modèle pourrait véritablement comprendre que « les robots ne se ressemblent pas ». Leur solution ? Introduire la prise en compte de cette hétérogénéité au niveau d’entrée du modèle, en utilisant un soft prompt apprenable pour encoder les caractéristiques uniques de chaque robot – sa « morphologie » – permettant au noyau Transformer d’apprendre des lois générales transverses aux tâches. Ce design a produit des résultats inattendus : un modèle de seulement 0,9 milliard de paramètres a battu des records SOTA sur cinq benchmarks majeurs de simulation, a appris à plier des vêtements – une tâche complexe et longue – avec seulement 1 200 données d’enseignement réelles, et a même réussi un transfert zéro-échantillon vers de nouveaux environnements. Enfin, en collaboration avec l’Institut d’intelligence artificielle de Shanghai, son équipe a remporté le championnat de l’IROS 2025 AGIBOT World Challenge à Hangzhou. Pourquoi revenir à l’académie ? Dans l’industrie, on peut mener des projets concrets et à impact direct, mais la liberté de choix des sujets de recherche est limitée. L’académie, elle, offre une plus grande autonomie pour explorer des questions fondatrices. Son intérêt pour l’intelligence incarnée s’inscrit dans une continuité : qu’il s’agisse de contrôle industriel, de planification autonome ou de robotique, ces domaines partagent une même problématique centrale : l’optimisation décisionnelle. L’essor des grands modèles a transformé la robotique, en lui permettant de dépasser les tâches sur mesure. L’avenir, selon lui, réside dans des modèles capables de généraliser, d’adapter, d’évoluer. Le paradoxe de la performance : « petit mais fort » X-VLA, malgré ses 0,9 milliard de paramètres, surpasse de nombreux modèles de 3 à 7 milliards, voire plus. Pourquoi ? Parce qu’il n’est pas construit sur un VLM classique, mais sur Florence, un modèle plus léger, mais enrichi en tâches de localisation visuelle, de relations objets-physiques, de relations spatiales – un « cerveau visuel » plus adapté à l’incarnation. L’architecture, simple mais efficace, et le soft prompt, qui encode la spécificité de chaque robot, permettent une efficacité maximale. De plus, le modèle n’est pas saturé : ses performances continuent d’augmenter avec plus de données, d’entraînement, voire de paramètres. C’est ce qu’on appelle une pente d’extension (scaling law) forte – un critère essentiel pour un modèle fondamental. Un avenir prometteur, mais pas immédiat Zhān ne vise pas pour l’instant une large commercialisation. Il voit d’abord un potentiel dans des scénarios semi-ouverts : tri, assemblage, manipulation de table. Les tâches domestiques complexes, en revanche, restent un défi majeur, nécessitant encore 3 à 5 ans de recherche. Ce qui l’impressionne le plus, c’est que le modèle, formé sur un environnement de laboratoire, a réussi à s’adapter sans aucune ré-entraînement à un salon d’exposition – avec des lumières, des arrière-plans, des mouvements inattendus. Cela prouve une généralisation inattendue. Un autre résultat surprenant : en utilisant seulement 9 Mo de paramètres ré-entraînables via LoRA, le modèle a atteint des performances proches de celles d’un entraînement complet. Cela signifie qu’il a bien appris des règles fondamentales. Prochaines étapes L’équipe prévoit d’ajouter des capacités de raisonnement incarné (comme la planification de tâches longues) et d’améliorer la stabilité sur des chaînes d’action prolongées. L’objectif : un modèle léger, général, fort, et capable de s’adapter – non pas un géant, mais un petit cerveau intelligent pour le robot du futur.

Liens associés

0.9B参数刷新五项SOTA,清华团队打造“小而强”通用机器人模型 | Articles tendance | HyperAI