HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

VITA-E : Interaction incarnée naturelle avec perception simultanée, audition, parole et action

VITA-E : Interaction incarnée naturelle avec perception simultanée, audition, parole et action

Résumé

Les modèles actuels de vision-langage-action (VLA) sont souvent limités par un paradigme d’interaction rigide et statique, qui ne permet pas de voir, d’entendre, de parler et d’agir simultanément, ni de gérer de manière dynamique les interruptions utilisateur en temps réel. Cette contrainte entrave la collaboration incarnée fluide, entraînant une expérience utilisateur rigide et peu réactive. Pour remédier à ces limites, nous introduisons VITA-E, un nouveau cadre d’interaction incarnée conçu pour assurer à la fois une concurrence comportementale et une interruption quasi en temps réel. Le cœur de notre approche repose sur une architecture à double modèle, dans laquelle deux instances parallèles de VLA agissent respectivement comme un « modèle actif » et un « modèle de veille », permettant à l’agent incarné d’observer son environnement, d’écouter le discours utilisateur, de fournir des réponses verbales et d’exécuter des actions, toutes simultanément et interrompues à tout moment, en imitant ainsi les capacités humaines de multitâche. Nous proposons également un paradigme « modèle comme contrôleur », dans lequel nous fine-tunons le VLM afin qu’il génère des jetons spéciaux agissant comme des commandes directes au niveau du système, intégrant ainsi directement le raisonnement du modèle au comportement du système. Des expériences menées sur une plateforme physique humanoïde démontrent que VITA-E est capable de gérer de manière fiable des scénarios interactifs complexes. Notre cadre est compatible avec divers modèles VLA à double système, atteignant un taux de réussite extrêmement élevé pour les arrêts d’urgence et les interruptions par la parole, tout en parvenant avec succès à exécuter simultanément la parole et l’action. Ce travail constitue une avancée significative vers des assistants incarnés plus naturels et performants.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VITA-E : Interaction incarnée naturelle avec perception simultanée, audition, parole et action | Articles de recherche | HyperAI