RVT-2 : Apprentissage de la manipulation précise à partir de peu de démonstrations

Dans cette étude, nous examinons comment construire un système robotique capable de résoudre plusieurs tâches de manipulation 3D à partir d'instructions linguistiques. Pour être utile dans les domaines industriels et domestiques, un tel système doit être en mesure d'apprendre de nouvelles tâches avec peu de démonstrations et de les exécuter avec précision. Des travaux antérieurs, comme PerAct et RVT, ont abordé ce problème, mais ils peinent souvent lorsqu'il s'agit de tâches nécessitant une grande précision. Nous étudions comment les rendre plus efficaces, précis et rapides. En utilisant une combinaison d'améliorations architecturales et systémiques, nous proposons RVT-2, un modèle de manipulation 3D multitâche qui est 6 fois plus rapide en entraînement et 2 fois plus rapide en inférence que son prédécesseur RVT. RVT-2 atteint un nouveau niveau d'état de l'art sur RLBench, améliorant le taux de réussite de 65% à 82%. RVT-2 est également efficace dans le monde réel, où il peut apprendre des tâches nécessitant une grande précision, comme la prise et l'insertion de fiches électriques (plugs), avec seulement 10 démonstrations. Les résultats visuels, le code source et le modèle entraîné sont disponibles à l'adresse suivante : https://robotic-view-transformer-2.github.io/.