HyperAIHyperAI

Command Palette

Search for a command to run...

Pix2Pose: Pixelweise Koordinatenregression von Objekten für die 6D-Pose-Schätzung

Kiru Park Timothy Patten Markus Vincze

Zusammenfassung

Die Schätzung der 6D-Pose von Objekten allein mit RGB-Bildern bleibt aufgrund von Problemen wie Verdeckungen und Symmetrien herausfordernd. Es ist auch schwierig, 3D-Modelle mit präziser Textur ohne Expertenwissen oder spezialisierte Scannegeräte zu erstellen. Um diese Probleme anzugehen, schlagen wir eine neue Pose-Schätzmethode vor, die als Pix2Pose bezeichnet wird und die 3D-Koordinaten jedes Objekt-Pixels ohne texturierte Modelle vorhersagt. Eine Auto-Encoder-Architektur wurde entwickelt, um die 3D-Koordinaten und erwarteten Fehler pro Pixel zu schätzen. Diese pixelbasierten Vorhersagen werden dann in mehreren Stufen verwendet, um 2D-3D-Zuordnungen zu bilden, um mit dem PnP-Algorithmus (Perspective-n-Point) und RANSAC-Iterationen (RANdom SAmple Consensus) die Posen direkt zu berechnen. Unsere Methode ist gegenüber Verdeckungen robust, indem sie jüngste Fortschritte im generativen adversären Training nutzt, um verdeckte Teile präzise wiederherzustellen. Darüber hinaus wird eine neuartige Verlustfunktion vorgeschlagen, der Transformer-Loss, um symmetrische Objekte durch das Leiten von Vorhersagen zur nächsten symmetrischen Pose zu behandeln. Auswertungen an drei verschiedenen Benchmark-Datensätzen, die symmetrische und verdeckte Objekte enthalten, zeigen, dass unsere Methode den aktuellen Stand der Technik allein mit RGB-Bildern übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp