HyperAIHyperAI

Command Palette

Search for a command to run...

CodeDiffuser : Politique de diffusion améliorée par l'attention via un code généré par VLM pour la résolution de l'ambiguïté des instructions

Guang Yin Yitong Li Yixuan Wang Dale McConachie Paarth Shah Kunimatsu Hashimoto Huan Zhang Katherine Liu Yunzhu Li

Résumé

Les instructions en langage naturel pour les tâches de manipulation robotique présentent souvent une ambiguïté et une imprécision. Par exemple, l'instruction « Accrochez une tasse à l'arbre à tasses » peut impliquer plusieurs actions valables si plusieurs tasses et branches sont disponibles. Les politiques conditionnées par le langage existantes reposent généralement sur des modèles d'apprentissage bout-à-bout qui traitent simultanément la compréhension sémantique de haut niveau et la génération d'actions de bas niveau, ce qui peut entraîner des performances sous-optimales en raison de leur manque de modularité et d'interprétabilité. Pour relever ces défis, nous introduisons un nouveau cadre de manipulation robotique capable d'accomplir des tâches spécifiées par un langage naturel potentiellement ambigu. Ce cadre utilise un modèle vision-langue (VLM) pour interpréter les concepts abstraits dans les instructions en langage naturel et génère un code spécifique à la tâche – une représentation intermédiaire exécutable et interprétable. Le code généré interagit avec le module de perception pour produire des cartes d'attention 3D qui mettent en évidence les régions pertinentes pour la tâche en intégrant des informations spatiales et sémantiques, résolvant ainsi efficacement les ambiguïtés dans les instructions. À travers des expériences approfondies, nous identifions les principales limitations des méthodes actuelles d'apprentissage par imitation, telles qu'une mauvaise adaptation aux variations linguistiques et environnementales. Nous montrons que notre approche se distingue dans des tâches de manipulation complexes impliquant une ambiguïté linguistique, une manipulation riche en contacts et des interactions multi-objets.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp