Generative Sparse Detection Networks für 3D Single-shot Object Detection

Die 3D-Objekterkennung wird aufgrund ihres hohen Anwendungspotenzials in zahlreichen vielversprechenden Bereichen wie Robotik und erweiterte Realität intensiv erforscht. Dennoch stellt die spärliche Natur der 3D-Daten dieser Aufgabe besondere Herausforderungen dar. Insbesondere ist die sichtbare Oberfläche der 3D-Punktwolken von der Instanzmitte getrennt, was die Grundlage für die Vorhersage von Bounding Boxes erschwert. Um dies zu adressieren, stellen wir den Generative Sparse Detection Network (GSDN) vor – ein vollständig konvolutionales Ein-Schritt-Sparse-Detektionsnetzwerk, das effizient Unterstützung für Objektvorschläge generiert. Der Schlüsselkomponente unseres Modells ist ein generativer spärlicher Tensor-Decoder, der eine Folge von transponierten Konvolutionen und Pruning-Schichten nutzt, um die Unterstützung spärlicher Tensoren zu erweitern, gleichzeitig aber unwahrscheinliche Objektzentren ausschließt, um Laufzeit und Speicheraufwand minimal zu halten. GSDN kann außergewöhnlich große Eingabedaten mit einem einzigen vollständig konvolutionalen Vorwärtsdurchlauf verarbeiten und benötigt daher nicht die heuristische Nachverarbeitungsphase, die bei früheren Methoden zur Zusammenfügung von Ergebnissen aus Gleitfenstern erforderlich ist. Wir validieren unseren Ansatz an drei 3D-Innenraum-Datensätzen, einschließlich des großskaligen 3D-Innenraum-Rekonstruktionsdatensatzes, wo unser Verfahren die state-of-the-art-Methoden um 7,14 % relativ übertrifft und gleichzeitig 3,78-mal schneller ist als die beste vorherige Arbeit.