HyperAIHyperAI

Command Palette

Search for a command to run...

RoboOmni : Manipulation proactive de robot dans un contexte omni-modal

Résumé

Les avancées récentes dans les modèles linguistiques à grande échelle multimodaux (MLLM) ont permis des progrès rapides dans le domaine des modèles Vision-Language-Action (VLA) dédiés à la manipulation robotique. Bien que ces approches soient efficaces dans de nombreux scénarios, elles reposent largement sur des instructions explicites, alors qu’en situation réelle, les humains émettent rarement des commandes directes. Une collaboration efficace exige que les robots puissent anticiper les intentions de l’utilisateur. Dans ce travail, nous introduisons une nouvelle configuration appelée instructions contextuelles multimodales, dans laquelle l’intention est déduite à partir de dialogues oraux, de sons environnementaux et de signaux visuels, plutôt que d’instructions explicites. Pour répondre à ce nouveau cadre, nous proposons RoboOmni, un cadre intégré Perceiver-Thinker-Talker-Executor fondé sur des modèles LLM omni-modaux end-to-end, qui unifie la reconnaissance d’intention, la confirmation des interactions et l’exécution d’actions. RoboOmni fusionne de manière spatio-temporelle les signaux auditifs et visuels afin d’assurer une reconnaissance robuste des intentions, tout en permettant une interaction directe par la parole. Pour pallier le manque de données d’entraînement dans le domaine de la reconnaissance proactive des intentions en manipulation robotique, nous avons construit OmniAction, une base de données comprenant 140 000 épisodes, plus de 5 000 locuteurs, 2 400 sons d’événements, 640 arrière-plans et six types d’instructions contextuelles. Les expériences menées dans des environnements simulés et réels montrent que RoboOmni dépasse les méthodes basées sur le texte ou la reconnaissance automatique de la parole (ASR) en termes de taux de réussite, de vitesse d’inférence, de reconnaissance d’intention et d’assistance proactive.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp