vor 2 Monaten

3D-Bounding-Box-Schätzung mit tiefem Lernen und Geometrie

Arsalan Mousavian; Dragomir Anguelov; John Flynn; Jana Kosecka

Abstract

Wir präsentieren eine Methode zur 3D-Objekterkennung und -Pose-Schätzung aus einem einzelnen Bild. Im Gegensatz zu aktuellen Techniken, die nur die 3D-Orientierung eines Objekts regressieren, regresst unsere Methode zunächst relativ stabile 3D-Objekteigenschaften mithilfe eines tiefen Faltungsneuronalen Netzes (Convolutional Neural Network) und kombiniert diese Schätzungen anschließend mit geometrischen Einschränkungen, die durch ein 2D-Objekt-Bounding-Box bereitgestellt werden, um eine vollständige 3D-Bounding-Box zu erzeugen. Die erste Netzwerk-Ausgabe schätzt die 3D-Orientierung des Objekts unter Verwendung eines neuartigen hybriden diskret-kontinuierlichen Verlustes, der den L2-Verlust deutlich übertrifft. Die zweite Ausgabe regresst die 3D-Objektmaße, die im Vergleich zu Alternativen relativ wenig Varianz aufweisen und für viele Objekttypen oft vorhersagbar sind. Diese Schätzungen, in Verbindung mit den geometrischen Übersetzungsrestriktionen, die durch das 2D-Bounding-Box auferlegt werden, ermöglichen es uns, eine stabile und genaue 3D-Pose des Objekts zu rekonstruieren. Wir evaluieren unsere Methode sowohl anhand der offiziellen Metrik der 3D-Orientierungsschätzung als auch anhand der Genauigkeit der ermittelten 3D-Bounding-Boxes auf dem anspruchsvollen KITTI-Objekterkennungs-Datensatz. Obwohl konzeptionell einfach gehalten, übertrifft unsere Methode komplexere und rechnerisch teurere Ansätze, die semantische Segmentierung, Instanzsegmentierung und flache Bodenvoraussetzungen sowie Subkategorieerkennung nutzen. Unser diskret-kontinuierlicher Verlust liefert zudem Stand-of-the-Art-Ergebnisse für die 3D-Blickrichtungsschätzung auf dem Pascal 3D+-Datensatz.