PillarNeXt: Die Neubewertung von Netzwerkarchitekturen für die 3D-Objekterkennung in LiDAR-Punktwolken

Um mit den spärlichen und unstrukturierten Roh-Punktwolken umzugehen, konzentriert sich die Forschung zum 3D-Objektdetektionsverfahren auf Basis von LiDAR hauptsächlich auf die Entwicklung spezialisierter lokaler Punktaggregator für eine feinabgestimmte geometrische Modellierung. In diesem Artikel betrachten wir die lokalen Punktaggregator aus der Perspektive der Zuweisung von Rechenressourcen neu. Wir stellen fest, dass die einfachsten auf Säulen basierenden Modelle erstaunlich gut abschneiden, sowohl hinsichtlich Genauigkeit als auch Latenz. Zudem zeigen wir, dass nur minimale Anpassungen des Erfolgs von 2D-Objektdetektion, wie beispielsweise die Erweiterung des Empfindlichkeitsfeldes, die Leistung erheblich steigern. Umfangreiche Experimente ergeben, dass unsere auf Säulen basierenden Netze mit modernisierten Architekturen und Trainingsansätzen die bisher beste Leistung auf zwei etablierten Benchmarks erzielen: dem Waymo Open Dataset und nuScenes. Unsere Ergebnisse stellen die verbreitete Annahme in Frage, dass eine detaillierte geometrische Modellierung unerlässlich ist, um hohe Leistung bei der 3D-Objektdetektion zu erzielen.