Command Palette
Search for a command to run...
VITA-E : Interaction incarnée naturelle avec perception simultanée, audition, parole et action

Résumé
Les modèles actuels de vision-langage-action (VLA) sont souvent limités par un paradigme d’interaction rigide et statique, qui ne permet pas de voir, d’entendre, de parler et d’agir simultanément, ni de gérer de manière dynamique les interruptions utilisateur en temps réel. Cette contrainte entrave la collaboration incarnée fluide, entraînant une expérience utilisateur rigide et peu réactive. Pour remédier à ces limites, nous introduisons VITA-E, un nouveau cadre d’interaction incarnée conçu pour assurer à la fois une concurrence comportementale et une interruption quasi en temps réel. Le cœur de notre approche repose sur une architecture à double modèle, dans laquelle deux instances parallèles de VLA agissent respectivement comme un « modèle actif » et un « modèle de veille », permettant à l’agent incarné d’observer son environnement, d’écouter le discours utilisateur, de fournir des réponses verbales et d’exécuter des actions, toutes simultanément et interrompues à tout moment, en imitant ainsi les capacités humaines de multitâche. Nous proposons également un paradigme « modèle comme contrôleur », dans lequel nous fine-tunons le VLM afin qu’il génère des jetons spéciaux agissant comme des commandes directes au niveau du système, intégrant ainsi directement le raisonnement du modèle au comportement du système. Des expériences menées sur une plateforme physique humanoïde démontrent que VITA-E est capable de gérer de manière fiable des scénarios interactifs complexes. Notre cadre est compatible avec divers modèles VLA à double système, atteignant un taux de réussite extrêmement élevé pour les arrêts d’urgence et les interruptions par la parole, tout en parvenant avec succès à exécuter simultanément la parole et l’action. Ce travail constitue une avancée significative vers des assistants incarnés plus naturels et performants.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.