HyperAIHyperAI

Command Palette

Search for a command to run...

PoET: Pose Estimation Transformer für die Einzelansichtsschätzung mehrerer Objekte im 6D-Raum

Thomas Jantos Mohamed Amin Hamdad Wolfgang Granig Stephan Weiss Jan Steinbrener

Zusammenfassung

Genauere Schätzung der 6D-Objektpose ist eine zentrale Aufgabe für zahlreiche robotische Anwendungen wie Greifen oder Lokalisierung. Diese Aufgabe ist aufgrund von Objektsymmetrien, Verwirrung (Clutter) und Verdeckung (Occlusion) bereits herausfordernd, wird jedoch noch schwieriger, wenn zusätzliche Informationen wie Tiefenbilder oder 3D-Modellvorlagen nicht zur Verfügung stehen. Wir präsentieren einen auf Transformers basierenden Ansatz, der ein RGB-Bild als Eingabe verwendet und für jedes Objekt im Bild eine 6D-Pose vorhersagt. Neben dem Bild benötigt unser Netzwerk keine weiteren Informationen wie Tiefenkarten oder 3D-Objektmodelle. Zunächst wird das Bild durch einen Objektdetektor geleitet, um Merkmalskarten zu generieren und Objekte zu erkennen. Anschließend werden die Merkmalskarten zusammen mit den erkannten Bounding Boxes als zusätzliche Information in einen Transformer eingespeist. Danach werden die Ausgabeobjektabfragen durch separate Kopfmodule für Translation und Rotation verarbeitet. Wir erreichen state-of-the-art-Ergebnisse für Ansätze, die ausschließlich auf RGB-Bildern basieren, auf dem anspruchsvollen YCB-V-Datensatz. Wir demonstrieren die Eignung des resultierenden Modells als Pose-Sensor für eine 6-DoF-Zustandsschätzungsaufgabe. Der Quellcode ist unter https://github.com/aau-cns/poet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp