HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Act : Intégration d'un Modèle Fondamental Visuel avec une Architecture Mémoire pour la Manipulation Robotique

Haoquan Fang Markus Grotz Wilbert Pumacay Yi Ru Wang Dieter Fox Ranjay Krishna Jiafei Duan

Résumé

Les systèmes de manipulation robotique opérant dans des environnements divers et dynamiques doivent faire preuve de trois capacités essentielles : l’interaction multitâche, la généralisation à des scénarios inédits, et la mémoire spatiale. Bien que des progrès significatifs aient été réalisés dans le domaine de la manipulation robotique, les approches existantes peinent souvent à généraliser face à des variations environnementales complexes et à relever les défis posés par les tâches dépendantes de la mémoire. Pour combler cet écart, nous introduisons SAM2Act, une politique basée sur un transformateur robotique multi-vue, qui exploite un upsampling multi-résolution combiné à des représentations visuelles issues de modèles fondamentaux à grande échelle. SAM2Act atteint un taux de succès moyen de 86,8 % sur 18 tâches dans le benchmark RLBench, tout en démontrant une généralisation robuste sur le benchmark The Colosseum, avec un écart de performance de seulement 4,3 % sous diverses perturbations environnementales. Partant de cette base, nous proposons SAM2Act+, une architecture fondée sur la mémoire, inspirée de SAM2, qui intègre un banc de mémoire, un encodeur et un mécanisme d’attention afin d’améliorer la mémoire spatiale. Afin de répondre au besoin d’évaluer les tâches dépendantes de la mémoire, nous introduisons MemoryBench, un nouveau benchmark conçu pour évaluer la mémoire spatiale et le rappel d’actions dans la manipulation robotique. SAM2Act+ atteint un taux de succès moyen de 94,3 % sur les tâches basées sur la mémoire dans MemoryBench, surpassant significativement les approches existantes et repoussant les limites des systèmes robotiques fondés sur la mémoire. Page du projet : sam2act.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp