HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée

Résumé

Les modèles Vision-Language-Action (VLA), pré-entraînés sur de grandes et diverses bases de données, montrent un potentiel remarquable pour la manipulation robotique à usage général. Toutefois, un obstacle majeur persiste dans l’adaptation de ces modèles à des tâches spécifiques, en particulier lorsque l’embodiment du robot ou la nature même de la tâche diffèrent des données utilisées lors du pré-entraînement. Ce désalignement entraîne un fort déséquilibre entre les distributions d’actions, nécessitant des quantités importantes de données et de ressources informatiques pour un fine-tuning efficace. Pour relever ce défi, nous introduisons \textbf{Align-Then-stEer (\texttt{ATE})}, un cadre d’adaptation novateur, efficace en données et facile à intégrer. \texttt{ATE} commence par aligner des espaces d’actions disparates en construisant un espace latent unifié, dans lequel un autoencodeur variationnel contraint par la divergence de KL réciproque projette les actions d’adaptation dans les modes de la distribution latente d’actions issue du pré-entraînement. Ensuite, il guide le processus de génération des VLA basés sur la diffusion ou les flux pendant le fine-tuning, en poussant la distribution de sortie du modèle vers le domaine cible. Nous menons des expériences approfondies sur la manipulation trans-embodiment et trans-tâche, dans des environnements simulés comme dans le monde réel. Par rapport au fine-tuning direct de VLA représentatifs, notre méthode améliore le taux moyen de réussite multi-tâche de jusqu’à \textbf{9,8\%} en simulation, et atteint une progression remarquable de \textbf{32\%} en taux de réussite dans un cadre expérimental réel de trans-embodiment. Ce travail propose une solution générale et légère qui améliore considérablement la faisabilité du déploiement de modèles VLA sur de nouveaux plateformes robotiques et pour de nouvelles tâches.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée | Articles de recherche | HyperAI