Command Palette
Search for a command to run...
RoboOmni : Manipulation proactive de robot dans un contexte omni-modal
RoboOmni : Manipulation proactive de robot dans un contexte omni-modal
Résumé
Les avancées récentes dans les modèles linguistiques à grande échelle multimodaux (MLLM) ont permis des progrès rapides dans le domaine des modèles Vision-Language-Action (VLA) dédiés à la manipulation robotique. Bien que ces approches soient efficaces dans de nombreux scénarios, elles reposent largement sur des instructions explicites, alors qu’en situation réelle, les humains émettent rarement des commandes directes. Une collaboration efficace exige que les robots puissent anticiper les intentions de l’utilisateur. Dans ce travail, nous introduisons une nouvelle configuration appelée instructions contextuelles multimodales, dans laquelle l’intention est déduite à partir de dialogues oraux, de sons environnementaux et de signaux visuels, plutôt que d’instructions explicites. Pour répondre à ce nouveau cadre, nous proposons RoboOmni, un cadre intégré Perceiver-Thinker-Talker-Executor fondé sur des modèles LLM omni-modaux end-to-end, qui unifie la reconnaissance d’intention, la confirmation des interactions et l’exécution d’actions. RoboOmni fusionne de manière spatio-temporelle les signaux auditifs et visuels afin d’assurer une reconnaissance robuste des intentions, tout en permettant une interaction directe par la parole. Pour pallier le manque de données d’entraînement dans le domaine de la reconnaissance proactive des intentions en manipulation robotique, nous avons construit OmniAction, une base de données comprenant 140 000 épisodes, plus de 5 000 locuteurs, 2 400 sons d’événements, 640 arrière-plans et six types d’instructions contextuelles. Les expériences menées dans des environnements simulés et réels montrent que RoboOmni dépasse les méthodes basées sur le texte ou la reconnaissance automatique de la parole (ASR) en termes de taux de réussite, de vitesse d’inférence, de reconnaissance d’intention et d’assistance proactive.