CodeDiffuser : Politique de diffusion améliorée par l'attention via un code généré par VLM pour la résolution de l'ambiguïté des instructions

Les instructions en langage naturel pour les tâches de manipulation robotique présentent souvent une ambiguïté et une imprécision. Par exemple, l'instruction « Accrochez une tasse à l'arbre à tasses » peut impliquer plusieurs actions valables si plusieurs tasses et branches sont disponibles. Les politiques conditionnées par le langage existantes reposent généralement sur des modèles d'apprentissage bout-à-bout qui traitent simultanément la compréhension sémantique de haut niveau et la génération d'actions de bas niveau, ce qui peut entraîner des performances sous-optimales en raison de leur manque de modularité et d'interprétabilité. Pour relever ces défis, nous introduisons un nouveau cadre de manipulation robotique capable d'accomplir des tâches spécifiées par un langage naturel potentiellement ambigu. Ce cadre utilise un modèle vision-langue (VLM) pour interpréter les concepts abstraits dans les instructions en langage naturel et génère un code spécifique à la tâche – une représentation intermédiaire exécutable et interprétable. Le code généré interagit avec le module de perception pour produire des cartes d'attention 3D qui mettent en évidence les régions pertinentes pour la tâche en intégrant des informations spatiales et sémantiques, résolvant ainsi efficacement les ambiguïtés dans les instructions. À travers des expériences approfondies, nous identifions les principales limitations des méthodes actuelles d'apprentissage par imitation, telles qu'une mauvaise adaptation aux variations linguistiques et environnementales. Nous montrons que notre approche se distingue dans des tâches de manipulation complexes impliquant une ambiguïté linguistique, une manipulation riche en contacts et des interactions multi-objets.