SAM2Act : Intégration d'un Modèle Fondamental Visuel avec une Architecture Mémoire pour la Manipulation Robotique

Les systèmes de manipulation robotique opérant dans des environnements divers et dynamiques doivent faire preuve de trois capacités essentielles : l’interaction multitâche, la généralisation à des scénarios inédits, et la mémoire spatiale. Bien que des progrès significatifs aient été réalisés dans le domaine de la manipulation robotique, les approches existantes peinent souvent à généraliser face à des variations environnementales complexes et à relever les défis posés par les tâches dépendantes de la mémoire. Pour combler cet écart, nous introduisons SAM2Act, une politique basée sur un transformateur robotique multi-vue, qui exploite un upsampling multi-résolution combiné à des représentations visuelles issues de modèles fondamentaux à grande échelle. SAM2Act atteint un taux de succès moyen de 86,8 % sur 18 tâches dans le benchmark RLBench, tout en démontrant une généralisation robuste sur le benchmark The Colosseum, avec un écart de performance de seulement 4,3 % sous diverses perturbations environnementales. Partant de cette base, nous proposons SAM2Act+, une architecture fondée sur la mémoire, inspirée de SAM2, qui intègre un banc de mémoire, un encodeur et un mécanisme d’attention afin d’améliorer la mémoire spatiale. Afin de répondre au besoin d’évaluer les tâches dépendantes de la mémoire, nous introduisons MemoryBench, un nouveau benchmark conçu pour évaluer la mémoire spatiale et le rappel d’actions dans la manipulation robotique. SAM2Act+ atteint un taux de succès moyen de 94,3 % sur les tâches basées sur la mémoire dans MemoryBench, surpassant significativement les approches existantes et repoussant les limites des systèmes robotiques fondés sur la mémoire. Page du projet : sam2act.github.io.