2D-gesteuerte 3D-Objektdetektion in RGB-D-Bildern

In diesem Paper präsentieren wir eine Technik, die 3D-Bounding-Boxes um Objekte in einer RGB-D-Szene platziert. Unser Ansatz nutzt die 2D-Informationen optimal aus, um den Suchraum im 3D-Raum schnell zu verkleinern, wobei wir state-of-the-art-Verfahren der 2D-Objektdetektion nutzen. Anschließend verwenden wir die 3D-Informationen, um die Orientierung, Position und Bewertung der Bounding-Boxes um Objekte zu bestimmen. Die Orientierung wird für jedes Objekt unabhängig geschätzt, indem wir vorherige Techniken nutzen, die Normaleninformationen ausnutzen. Die räumliche Lage und Größe der Objekte im 3D-Raum werden mittels eines mehrschichtigen Perzeptrons (MLP) gelernt. Im letzten Schritt verfeinern wir unsere Detektionen basierend auf Objekt-Klassen-Beziehungen innerhalb einer Szene. Im Vergleich zu state-of-the-art-Detektionsmethoden, die nahezu ausschließlich im spärlichen 3D-Domäne arbeiten, zeigen umfangreiche Experimente auf dem bekannten SUN RGB-D-Datensatz, dass unsere vorgeschlagene Methode erheblich schneller (4,1 Sekunden pro Bild) bei der Detektion von 3D-Objekten in RGB-D-Bildern ist und zudem eine um 3 mAP höhere Leistung erzielt als die state-of-the-art-Methode, die 4,7-mal langsamer ist, und vergleichbar ist mit einer Methode, die zwei Größenordnungen langsamer ist. Diese Arbeit deutet darauf hin, dass die 2D-getriebene Objektdetektion im 3D-Raum weiter erforscht werden sollte, insbesondere in Fällen, in denen die 3D-Eingabedaten spärlich sind.