HyperAIHyperAI
vor 11 Tagen

PoET: Pose Estimation Transformer für die Einzelansichtsschätzung mehrerer Objekte im 6D-Raum

Thomas Jantos, Mohamed Amin Hamdad, Wolfgang Granig, Stephan Weiss, Jan Steinbrener
PoET: Pose Estimation Transformer für die Einzelansichtsschätzung mehrerer Objekte im 6D-Raum
Abstract

Genauere Schätzung der 6D-Objektpose ist eine zentrale Aufgabe für zahlreiche robotische Anwendungen wie Greifen oder Lokalisierung. Diese Aufgabe ist aufgrund von Objektsymmetrien, Verwirrung (Clutter) und Verdeckung (Occlusion) bereits herausfordernd, wird jedoch noch schwieriger, wenn zusätzliche Informationen wie Tiefenbilder oder 3D-Modellvorlagen nicht zur Verfügung stehen. Wir präsentieren einen auf Transformers basierenden Ansatz, der ein RGB-Bild als Eingabe verwendet und für jedes Objekt im Bild eine 6D-Pose vorhersagt. Neben dem Bild benötigt unser Netzwerk keine weiteren Informationen wie Tiefenkarten oder 3D-Objektmodelle. Zunächst wird das Bild durch einen Objektdetektor geleitet, um Merkmalskarten zu generieren und Objekte zu erkennen. Anschließend werden die Merkmalskarten zusammen mit den erkannten Bounding Boxes als zusätzliche Information in einen Transformer eingespeist. Danach werden die Ausgabeobjektabfragen durch separate Kopfmodule für Translation und Rotation verarbeitet. Wir erreichen state-of-the-art-Ergebnisse für Ansätze, die ausschließlich auf RGB-Bildern basieren, auf dem anspruchsvollen YCB-V-Datensatz. Wir demonstrieren die Eignung des resultierenden Modells als Pose-Sensor für eine 6-DoF-Zustandsschätzungsaufgabe. Der Quellcode ist unter https://github.com/aau-cns/poet verfügbar.