Command Palette
Search for a command to run...
Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée
Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé
Les modèles Vision-Language-Action (VLA), pré-entraînés sur de grandes et diverses bases de données, montrent un potentiel remarquable pour la manipulation robotique à usage général. Toutefois, un obstacle majeur persiste dans l’adaptation de ces modèles à des tâches spécifiques, en particulier lorsque l’embodiment du robot ou la nature même de la tâche diffèrent des données utilisées lors du pré-entraînement. Ce désalignement entraîne un fort déséquilibre entre les distributions d’actions, nécessitant des quantités importantes de données et de ressources informatiques pour un fine-tuning efficace. Pour relever ce défi, nous introduisons \textbf{Align-Then-stEer (\texttt{ATE})}, un cadre d’adaptation novateur, efficace en données et facile à intégrer. \texttt{ATE} commence par aligner des espaces d’actions disparates en construisant un espace latent unifié, dans lequel un autoencodeur variationnel contraint par la divergence de KL réciproque projette les actions d’adaptation dans les modes de la distribution latente d’actions issue du pré-entraînement. Ensuite, il guide le processus de génération des VLA basés sur la diffusion ou les flux pendant le fine-tuning, en poussant la distribution de sortie du modèle vers le domaine cible. Nous menons des expériences approfondies sur la manipulation trans-embodiment et trans-tâche, dans des environnements simulés comme dans le monde réel. Par rapport au fine-tuning direct de VLA représentatifs, notre méthode améliore le taux moyen de réussite multi-tâche de jusqu’à \textbf{9,8\%} en simulation, et atteint une progression remarquable de \textbf{32\%} en taux de réussite dans un cadre expérimental réel de trans-embodiment. Ce travail propose une solution générale et légère qui améliore considérablement la faisabilité du déploiement de modèles VLA sur de nouveaux plateformes robotiques et pour de nouvelles tâches.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.