MinkLoc++: Fusion von Lidar- und monokularen Bildern für die Ortserkennung

Wir stellen einen diskriminativen multimodalen Deskriptor vor, der auf einem Paar von Sensordaten basiert: einem Punktwolken-Datensatz aus einem LiDAR-Sensor und einem Bild aus einer RGB-Kamera. Unser Deskriptor, der MinkLoc++ genannt wird, kann für die Ortserkennung, die Re-Localisierung und die Schleifenabschließung in Robotik- oder autonomer Fahrzeuganwendungen verwendet werden. Wir verwenden einen Ansatz mit später Fusion (late fusion), bei dem jede Modalität getrennt verarbeitet wird und erst im letzten Teil des Verarbeitungsprozesses zusammengeführt wird. Die vorgeschlagene Methode erreicht den Stand der Technik (state-of-the-art) auf standardisierten Benchmarks für Ortserkennung. Darüber hinaus identifizieren wir das Problem der dominierenden Modalität beim Training eines multimodalen Deskriptors. Dieses Problem zeigt sich, wenn das Netzwerk sich auf eine Modalität konzentriert, die eine größere Überanpassung (overfitting) an die Trainingsdaten hat. Dies senkt während des Trainings den Verlust, führt aber zu suboptimalen Ergebnissen auf dem Evaluationsdatensatz. In dieser Arbeit beschreiben wir, wie man solche Risiken erkennen und mindern kann, wenn man einen tiefen Metrik-Lernansatz (deep metric learning) zum Training eines multimodalen Neuronalen Netzes verwendet. Unser Code ist öffentlich auf der Projektwebsite verfügbar: https://github.com/jac99/MinkLocMultimodal.