MinkLoc3D: Ortserkennung auf Basis von Punktwolken für große Gebiete

Das Papier stellt eine lernbasierte Methode zur Berechnung eines diskriminativen 3D-Punktwolken-Deskriptors für die Ortserkennung vor. Bestehende Methoden, wie PointNetVLAD, basieren auf einer ungeordneten Punktwolkenrepräsentation. Sie verwenden PointNet als ersten Verarbeitungsschritt, um lokale Merkmale zu extrahieren, die anschließend in einen globalen Deskriptor aggregiert werden. Die PointNet-Architektur ist jedoch nicht gut geeignet, lokale geometrische Strukturen zu erfassen. Daher verbessern neueste Methoden die Standard-PointNet-Architektur durch das Hinzufügen verschiedener Mechanismen zur Erfassung lokaler kontextueller Informationen, wie z.B. Graphkonvolutionalnetze oder die Verwendung von manuell gestalteten Merkmalen (hand-crafted features). Wir präsentieren einen alternativen Ansatz, der als MinkLoc3D bezeichnet wird, um einen diskriminativen 3D-Punktwolken-Deskriptor basierend auf einer dünnbesetzten (sparse) voxelisierten Punktwolkenrepräsentation und dünnbesetzten 3D-Konvolutionen zu berechnen. Das vorgeschlagene Verfahren hat eine einfache und effiziente Architektur. Die Auswertung an Standard-Benchmarks zeigt, dass MinkLoc3D den aktuellen Stand der Technik übertrifft. Unser Code ist öffentlich auf der Projektwebsite verfügbar: https://github.com/jac99/MinkLoc3D