vor 7 Tagen

RoboLLM: Robotersehverfahren, fundiert auf multimodale große Sprachmodelle

Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa

Abstract

Robotersehen-Anwendungen erfordern oft eine Vielzahl visueller Wahrnehmungsaufgaben, wie Objekterkennung, Segmentierung und Identifikation. Obwohl in diesen einzelnen Aufgaben erhebliche Fortschritte erzielt wurden, stellt die Integration spezialisierter Modelle in eine einheitliche Vision-Pipeline erhebliche ingenieurtechnische Herausforderungen und Kosten dar. In jüngster Zeit sind Multimodale Große Sprachmodelle (MLLMs) als neue Kernkomponenten für verschiedene nachgeschaltete Aufgaben aufgetreten. Wir argumentieren, dass die Nutzung der Vortrainingsfähigkeiten von MLLMs die Entwicklung eines vereinfachten Frameworks ermöglicht und somit die Notwendigkeit spezialisierter Encoder reduziert. Insbesondere ermöglicht das umfangreiche, im Vortraining erlernte Wissen in MLLMs eine leichtere Feinabstimmung auf nachgeschaltete Robotersehen-Aufgaben und führt zu überlegener Leistung. Wir stellen das RoboLLM-Framework vor, das auf einem BEiT-3-Backbone basiert, um alle visuellen Wahrnehmungsaufgaben im ARMBench-Wettbewerb zu bewältigen – einem großskaligen Datensatz für robotergestützte Manipulation in realen Lagerumgebungen. RoboLLM übertrifft nicht nur bestehende Baselines erheblich, sondern verringert auch die ingenieurtechnische Belastung im Zusammenhang mit Modellauswahl und -anpassung signifikant. Der Quellcode ist öffentlich verfügbar unter https://github.com/longkukuhi/armbench.