HyperAIHyperAI
vor 2 Monaten

CubifAE-3D: Kubifizierung des Kameraraums für die 3D-Objekterkennung auf Basis von Auto-Encodern

Shrivastava, Shubham ; Chakravarty, Punarjay
CubifAE-3D: Kubifizierung des Kameraraums für die 3D-Objekterkennung auf Basis von Auto-Encodern
Abstract

Wir stellen eine Methode zur 3D-Objekterkennung mithilfe eines einzelnen monokularen Bildes vor. Ausgehend von einem synthetischen Datensatz pretrainieren wir einen RGB-zu-Tiefen-Autoencoder (AE). Das aus diesem AE gelernte Embedding wird dann verwendet, um ein 3D-Objekterkennungsnetzwerk (3DOD) CNN zu trainieren, das nach der Generierung eines latenten Embeddings aus dem RGB-Bild durch den Encoder des AE die Parameter der 3D-Objekt-Posen regressiert. Wir zeigen, dass wir den AE einmal mit gepaarten RGB- und Tiefenbildern aus Simulationsdaten pretrainieren können und anschließend das 3DOD-Netzwerk nur mit echten Daten trainieren müssen, die aus RGB-Bildern und 3D-Objekt-Pose-Etiketten bestehen (ohne die Notwendigkeit dichter Tiefeninformationen). Unser 3DOD-Netzwerk nutzt eine spezielle „Würfelung“ des um die Kamera herumliegenden 3D-Raums, bei der jeder Würfel die Aufgabe hat, N Objekt-Posen zusammen mit deren Klasse und Konfidenzwerten vorherzusagen. Die Pretraining-Schritte des AE und diese Methode der Einteilung des um die Kamera herumliegenden 3D-Raums in Würfel geben unserer Methode ihren Namen – CubifAE-3D. Wir präsentieren Ergebnisse für die monokulare 3D-Objekterkennung im Anwendungsfall autonomer Fahrzeuge (AV) anhand der Virtual KITTI 2 und der KITTI-Datensätze.

CubifAE-3D: Kubifizierung des Kameraraums für die 3D-Objekterkennung auf Basis von Auto-Encodern | Neueste Forschungsarbeiten | HyperAI