HyperAIHyperAI

Command Palette

Search for a command to run...

MinkLoc++: Fusion von Lidar- und monokularen Bildern für die Ortserkennung

Jacek Komorowski Monika Wysoczańska Tomasz Trzcinski

Zusammenfassung

Wir stellen einen diskriminativen multimodalen Deskriptor vor, der auf einem Paar von Sensordaten basiert: einem Punktwolken-Datensatz aus einem LiDAR-Sensor und einem Bild aus einer RGB-Kamera. Unser Deskriptor, der MinkLoc++ genannt wird, kann für die Ortserkennung, die Re-Localisierung und die Schleifenabschließung in Robotik- oder autonomer Fahrzeuganwendungen verwendet werden. Wir verwenden einen Ansatz mit später Fusion (late fusion), bei dem jede Modalität getrennt verarbeitet wird und erst im letzten Teil des Verarbeitungsprozesses zusammengeführt wird. Die vorgeschlagene Methode erreicht den Stand der Technik (state-of-the-art) auf standardisierten Benchmarks für Ortserkennung. Darüber hinaus identifizieren wir das Problem der dominierenden Modalität beim Training eines multimodalen Deskriptors. Dieses Problem zeigt sich, wenn das Netzwerk sich auf eine Modalität konzentriert, die eine größere Überanpassung (overfitting) an die Trainingsdaten hat. Dies senkt während des Trainings den Verlust, führt aber zu suboptimalen Ergebnissen auf dem Evaluationsdatensatz. In dieser Arbeit beschreiben wir, wie man solche Risiken erkennen und mindern kann, wenn man einen tiefen Metrik-Lernansatz (deep metric learning) zum Training eines multimodalen Neuronalen Netzes verwendet. Unser Code ist öffentlich auf der Projektwebsite verfügbar: https://github.com/jac99/MinkLocMultimodal.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MinkLoc++: Fusion von Lidar- und monokularen Bildern für die Ortserkennung | Paper | HyperAI