HyperAIHyperAI

Command Palette

Search for a command to run...

RoboLLM: Robotersehverfahren, fundiert auf multimodale große Sprachmodelle

Zijun Long George Killick Richard McCreadie Gerardo Aragon Camarasa

Zusammenfassung

Robotersehen-Anwendungen erfordern oft eine Vielzahl visueller Wahrnehmungsaufgaben, wie Objekterkennung, Segmentierung und Identifikation. Obwohl in diesen einzelnen Aufgaben erhebliche Fortschritte erzielt wurden, stellt die Integration spezialisierter Modelle in eine einheitliche Vision-Pipeline erhebliche ingenieurtechnische Herausforderungen und Kosten dar. In jüngster Zeit sind Multimodale Große Sprachmodelle (MLLMs) als neue Kernkomponenten für verschiedene nachgeschaltete Aufgaben aufgetreten. Wir argumentieren, dass die Nutzung der Vortrainingsfähigkeiten von MLLMs die Entwicklung eines vereinfachten Frameworks ermöglicht und somit die Notwendigkeit spezialisierter Encoder reduziert. Insbesondere ermöglicht das umfangreiche, im Vortraining erlernte Wissen in MLLMs eine leichtere Feinabstimmung auf nachgeschaltete Robotersehen-Aufgaben und führt zu überlegener Leistung. Wir stellen das RoboLLM-Framework vor, das auf einem BEiT-3-Backbone basiert, um alle visuellen Wahrnehmungsaufgaben im ARMBench-Wettbewerb zu bewältigen – einem großskaligen Datensatz für robotergestützte Manipulation in realen Lagerumgebungen. RoboLLM übertrifft nicht nur bestehende Baselines erheblich, sondern verringert auch die ingenieurtechnische Belastung im Zusammenhang mit Modellauswahl und -anpassung signifikant. Der Quellcode ist öffentlich verfügbar unter https://github.com/longkukuhi/armbench.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RoboLLM: Robotersehverfahren, fundiert auf multimodale große Sprachmodelle | Paper | HyperAI