HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Act: Integration visueller Grundlagenmodelle mit einer Speicherarchitektur für robotische Manipulation

Haoquan Fang Markus Grotz Wilbert Pumacay Yi Ru Wang Dieter Fox Ranjay Krishna Jiafei Duan

Zusammenfassung

Roboter-Manipulationssysteme, die in vielfältigen, dynamischen Umgebungen operieren, müssen drei entscheidende Fähigkeiten aufweisen: Multitask-Interaktion, Generalisierung auf bisher nicht gesehene Szenarien sowie räumliches Gedächtnis. Obwohl erhebliche Fortschritte in der Roboter-Manipulation erzielt wurden, bleiben bestehende Ansätze häufig hinter den Anforderungen hinsichtlich der Generalisierung gegenüber komplexen Umweltvariationen und der Bewältigung von gedächtnisabhängigen Aufgaben zurück. Um diese Lücke zu schließen, stellen wir SAM2Act vor – eine mehransichtige, auf Transformers basierende Politik für Roboter, die Multi-Resolution-Up-Sampling mit visuellen Darstellungen aus großen, vortrainierten Grundmodellen nutzt. SAM2Act erreicht eine state-of-the-art-Durchschnittserfolgsquote von 86,8 % über 18 Aufgaben im RLBench-Benchmark und zeigt eine robuste Generalisierung im The Colosseum-Benchmark, wobei unter unterschiedlichen Umweltstörungen nur eine Leistungslücke von 4,3 % besteht. Auf dieser Grundlage entwickeln wir SAM2Act+, eine gedächtnisbasierte Architektur, die sich von SAM2 inspirieren lässt und über einen Speicherbank, einen Encoder sowie eine Aufmerksamkeitsmechanismus verfügt, um das räumliche Gedächtnis zu verstärken. Um den Bedarf an der Bewertung von gedächtnisabhängigen Aufgaben zu adressieren, führen wir MemoryBench ein – einen neuartigen Benchmark, der auf die Beurteilung von räumlichem Gedächtnis und Aktionserinnerung in der Roboter-Manipulation abzielt. SAM2Act+ erreicht auf gedächtnisbasierten Aufgaben im MemoryBench eine durchschnittliche Erfolgsquote von 94,3 % und übertrifft damit bestehende Ansätze deutlich, wodurch die Grenzen von gedächtnisbasierten Robotersystemen erweitert werden. Projektseite: sam2act.github.io.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp