HyperAIHyperAI
vor 15 Tagen

SAM2Act: Integration visueller Grundlagenmodelle mit einer Speicherarchitektur für robotische Manipulation

Haoquan Fang, Markus Grotz, Wilbert Pumacay, Yi Ru Wang, Dieter Fox, Ranjay Krishna, Jiafei Duan
SAM2Act: Integration visueller Grundlagenmodelle mit einer Speicherarchitektur für robotische Manipulation
Abstract

Roboter-Manipulationssysteme, die in vielfältigen, dynamischen Umgebungen operieren, müssen drei entscheidende Fähigkeiten aufweisen: Multitask-Interaktion, Generalisierung auf bisher nicht gesehene Szenarien sowie räumliches Gedächtnis. Obwohl erhebliche Fortschritte in der Roboter-Manipulation erzielt wurden, bleiben bestehende Ansätze häufig hinter den Anforderungen hinsichtlich der Generalisierung gegenüber komplexen Umweltvariationen und der Bewältigung von gedächtnisabhängigen Aufgaben zurück. Um diese Lücke zu schließen, stellen wir SAM2Act vor – eine mehransichtige, auf Transformers basierende Politik für Roboter, die Multi-Resolution-Up-Sampling mit visuellen Darstellungen aus großen, vortrainierten Grundmodellen nutzt. SAM2Act erreicht eine state-of-the-art-Durchschnittserfolgsquote von 86,8 % über 18 Aufgaben im RLBench-Benchmark und zeigt eine robuste Generalisierung im The Colosseum-Benchmark, wobei unter unterschiedlichen Umweltstörungen nur eine Leistungslücke von 4,3 % besteht. Auf dieser Grundlage entwickeln wir SAM2Act+, eine gedächtnisbasierte Architektur, die sich von SAM2 inspirieren lässt und über einen Speicherbank, einen Encoder sowie eine Aufmerksamkeitsmechanismus verfügt, um das räumliche Gedächtnis zu verstärken. Um den Bedarf an der Bewertung von gedächtnisabhängigen Aufgaben zu adressieren, führen wir MemoryBench ein – einen neuartigen Benchmark, der auf die Beurteilung von räumlichem Gedächtnis und Aktionserinnerung in der Roboter-Manipulation abzielt. SAM2Act+ erreicht auf gedächtnisbasierten Aufgaben im MemoryBench eine durchschnittliche Erfolgsquote von 94,3 % und übertrifft damit bestehende Ansätze deutlich, wodurch die Grenzen von gedächtnisbasierten Robotersystemen erweitert werden. Projektseite: sam2act.github.io.

SAM2Act: Integration visueller Grundlagenmodelle mit einer Speicherarchitektur für robotische Manipulation | Neueste Forschungsarbeiten | HyperAI