Command Palette
Search for a command to run...
Exploration des conditions des modèles de diffusion en contrôle robotique
Heeseong Shin Byeongho Heo Dongyoon Han Seungryong Kim Taekyung Kim

Résumé
Bien que les représentations visuelles pré-entraînées aient considérablement progressé dans le domaine de l'apprentissage par imitation, elles sont souvent agnostiques aux tâches, car elles restent figées durant l'apprentissage de la politique. Dans ce travail, nous explorons l’utilisation de modèles de diffusion texte-image pré-entraînés afin d’obtenir des représentations visuelles adaptatives aux tâches pour le contrôle robotique, sans effectuer de fine-tuning sur le modèle lui-même. Toutefois, nous constatons qu’appliquer de manière naïve des conditions textuelles — une stratégie fructueuse dans d’autres domaines visuels — ne produit que des gains minimes, voire négatifs, dans les tâches de contrôle. Nous attribuons ce phénomène à l’écart de domaine entre les données d’entraînement du modèle de diffusion et les environnements de contrôle robotique, ce qui nous amène à proposer des conditions prenant en compte les informations visuelles spécifiques et dynamiques requises pour le contrôle. À cette fin, nous introduisons ORCA, un cadre qui met en œuvre des promts tâche-apprenants, capables d’adapter dynamiquement aux environnements de contrôle, ainsi que des promts visuels permettant de capturer des détails fins et spécifiques à chaque trame. Grâce à la mise en œuvre de représentations adaptatives à la tâche grâce à nos conditions nouvellement conçues, notre approche atteint des performances de pointe sur diverses benchmarks de contrôle robotique, dépassant significativement les méthodes antérieures.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.