Gruppenfreie 3D-Objektdetektion mittels Transformers

In jüngster Zeit hat die direkte Detektion von 3D-Objekten aus 3D-Punktwolken zunehmend Aufmerksamkeit erfahren. Um Objektrepräsentationen aus einer unregelmäßigen Punktwolke zu extrahieren, führen bestehende Methoden in der Regel einen Punkt-Gruppierungs-Schritt durch, bei dem die Punkte den einzelnen Objektkandidaten zugeordnet werden, damit ein PointNet-ähnliches Netzwerk zur Ableitung von Objektmerkmalen aus den gruppierten Punkten eingesetzt werden kann. Allerdings verringern ungenaue Punktzuordnungen, die durch die handgefertigten Gruppierungsansätze verursacht werden, die Leistungsfähigkeit der 3D-Objektdetektion.In diesem Artikel präsentieren wir eine einfache, jedoch effektive Methode zur direkten Detektion von 3D-Objekten aus einer 3D-Punktwolke. Anstatt lokale Punkte jeweils einem Objektkandidaten zuzuordnen, berechnet unsere Methode die Merkmale eines Objekts aus allen Punkten der Punktwolke mit Hilfe einer Aufmerksamkeitsmechanik im Rahmen von Transformers \cite{vaswani2017attention}, wobei der Beitrag jedes einzelnen Punkts während des Netzwerktrainings automatisch gelernt wird. Durch eine verbesserte Aufmerksamkeits-Stacking-Strategie fusioniert unsere Methode Objektmerkmale aus verschiedenen Stufen und erzeugt genauere Objektdetektionsergebnisse. Ohne aufwändige Zusatzkomponenten erreicht die vorgeschlagene Methode eine state-of-the-art-Leistung bei der 3D-Objektdetektion auf zwei weit verbreiteten Benchmarks, ScanNet V2 und SUN RGB-D. Der Quellcode und die Modelle sind öffentlich unter \url{https://github.com/zeliu98/Group-Free-3D} verfügbar.