il y a 5 mois

Résumé

Les modèles Vision-Language-Action (VLA), pré-entraînés sur de grandes et diverses bases de données, montrent un potentiel remarquable pour la manipulation robotique à usage général. Toutefois, un obstacle majeur persiste dans l’adaptation de ces modèles à des tâches spécifiques, en particulier lorsque l’embodiment du robot ou la nature même de la tâche diffèrent des données utilisées lors du pré-entraînement. Ce désalignement entraîne un fort déséquilibre entre les distributions d’actions, nécessitant des quantités importantes de données et de ressources informatiques pour un fine-tuning efficace. Pour relever ce défi, nous introduisons \textbf{Align-Then-stEer (\texttt{ATE})}, un cadre d’adaptation novateur, efficace en données et facile à intégrer. \texttt{ATE} commence par aligner des espaces d’actions disparates en construisant un espace latent unifié, dans lequel un autoencodeur variationnel contraint par la divergence de KL réciproque projette les actions d’adaptation dans les modes de la distribution latente d’actions issue du pré-entraînement. Ensuite, il guide le processus de génération des VLA basés sur la diffusion ou les flux pendant le fine-tuning, en poussant la distribution de sortie du modèle vers le domaine cible. Nous menons des expériences approfondies sur la manipulation trans-embodiment et trans-tâche, dans des environnements simulés comme dans le monde réel. Par rapport au fine-tuning direct de VLA représentatifs, notre méthode améliore le taux moyen de réussite multi-tâche de jusqu’à \textbf{9,8%} en simulation, et atteint une progression remarquable de \textbf{32%} en taux de réussite dans un cadre expérimental réel de trans-embodiment. Ce travail propose une solution générale et légère qui améliore considérablement la faisabilité du déploiement de modèles VLA sur de nouveaux plateformes robotiques et pour de nouvelles tâches.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Any-to-Any

Apprentissage Multi-tâches

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Any-to-Any

Apprentissage Multi-tâches

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée | Articles | HyperAI

Command Palette

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Align-Then-stEer : Adapter les modèles vision-langage-action par une guidance latente unifiée

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters