HyperAIHyperAI

Command Palette

Search for a command to run...

CubifAE-3D: Kubifizierung des Kameraraums für die 3D-Objekterkennung auf Basis von Auto-Encodern

Shubham Shrivastava Punarjay Chakravarty

Zusammenfassung

Wir stellen eine Methode zur 3D-Objekterkennung mithilfe eines einzelnen monokularen Bildes vor. Ausgehend von einem synthetischen Datensatz pretrainieren wir einen RGB-zu-Tiefen-Autoencoder (AE). Das aus diesem AE gelernte Embedding wird dann verwendet, um ein 3D-Objekterkennungsnetzwerk (3DOD) CNN zu trainieren, das nach der Generierung eines latenten Embeddings aus dem RGB-Bild durch den Encoder des AE die Parameter der 3D-Objekt-Posen regressiert. Wir zeigen, dass wir den AE einmal mit gepaarten RGB- und Tiefenbildern aus Simulationsdaten pretrainieren können und anschließend das 3DOD-Netzwerk nur mit echten Daten trainieren müssen, die aus RGB-Bildern und 3D-Objekt-Pose-Etiketten bestehen (ohne die Notwendigkeit dichter Tiefeninformationen). Unser 3DOD-Netzwerk nutzt eine spezielle „Würfelung“ des um die Kamera herumliegenden 3D-Raums, bei der jeder Würfel die Aufgabe hat, N Objekt-Posen zusammen mit deren Klasse und Konfidenzwerten vorherzusagen. Die Pretraining-Schritte des AE und diese Methode der Einteilung des um die Kamera herumliegenden 3D-Raums in Würfel geben unserer Methode ihren Namen – CubifAE-3D. Wir präsentieren Ergebnisse für die monokulare 3D-Objekterkennung im Anwendungsfall autonomer Fahrzeuge (AV) anhand der Virtual KITTI 2 und der KITTI-Datensätze.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp