il y a 3 mois

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

Résumé

Les avancées récentes dans les modèles linguistiques à grande échelle multimodaux (MLLM) ont permis des progrès rapides dans le domaine des modèles Vision-Language-Action (VLA) dédiés à la manipulation robotique. Bien que ces approches soient efficaces dans de nombreux scénarios, elles reposent largement sur des instructions explicites, alors qu’en situation réelle, les humains émettent rarement des commandes directes. Une collaboration efficace exige que les robots puissent anticiper les intentions de l’utilisateur. Dans ce travail, nous introduisons une nouvelle configuration appelée instructions contextuelles multimodales, dans laquelle l’intention est déduite à partir de dialogues oraux, de sons environnementaux et de signaux visuels, plutôt que d’instructions explicites. Pour répondre à ce nouveau cadre, nous proposons RoboOmni, un cadre intégré Perceiver-Thinker-Talker-Executor fondé sur des modèles LLM omni-modaux end-to-end, qui unifie la reconnaissance d’intention, la confirmation des interactions et l’exécution d’actions. RoboOmni fusionne de manière spatio-temporelle les signaux auditifs et visuels afin d’assurer une reconnaissance robuste des intentions, tout en permettant une interaction directe par la parole. Pour pallier le manque de données d’entraînement dans le domaine de la reconnaissance proactive des intentions en manipulation robotique, nous avons construit OmniAction, une base de données comprenant 140 000 épisodes, plus de 5 000 locuteurs, 2 400 sons d’événements, 640 arrière-plans et six types d’instructions contextuelles. Les expériences menées dans des environnements simulés et réels montrent que RoboOmni dépasse les méthodes basées sur le texte ou la reconnaissance automatique de la parole (ASR) en termes de taux de réussite, de vitesse d’inférence, de reconnaissance d’intention et d’assistance proactive.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Any-to-Any

Intelligence Incarnée

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Any-to-Any

Intelligence Incarnée

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

RoboOmni : Manipulation proactive de robot dans un contexte omni-modal

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RoboOmni : Manipulation proactive de robot dans un contexte omni-modal

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RoboOmni : Manipulation proactive de robot dans un contexte omni-modal

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu

Siyin Wang Jinlan Fu Feihong Liu Xinzhe He Huangxuan Wu Junhao Shi Kexin Huang Zhaoye Fei Jingjing Gong Zuxuan Wu