Vorherige Guided Dropout für robuste visuelle Lokalisierung in dynamischen Umgebungen

Die Lokalisierung von Kameras anhand monokularer Bilder stellt ein lang bestehendes Problem dar, wobei deren Robustheit in dynamischen Umgebungen jedoch weiterhin nicht ausreichend adressiert ist. Im Vergleich zu klassischen geometrischen Ansätzen haben moderne CNN-basierte Methoden (z. B. PoseNet) eine höhere Zuverlässigkeit gegenüber Änderungen der Beleuchtung oder Blickwinkel gezeigt, weisen jedoch nach wie vor folgende Einschränkungen auf. Erstens werden bewegliche Objekte im Vordergrund nicht explizit berücksichtigt, was zu schlechter Leistung und Instabilität in dynamischen Umgebungen führt. Zweitens liefert die Ausgabe für jedes Bild lediglich eine Punktschätzung ohne Quantifizierung der Unsicherheit. In diesem Artikel präsentieren wir einen allgemein anwendbaren Rahmen, der bestehende CNN-basierte Pose-Regressoren zur Verbesserung ihrer Robustheit in dynamischen Umgebungen dienen kann. Der zentrale Ansatz besteht aus einem vorherigen Wissen gesteuerten Dropout-Modul, kombiniert mit einem Self-Attention-Modul, das die CNNs sowohl während des Trainings als auch während der Inferenz dazu anleitet, bewegliche Objekte im Vordergrund zu ignorieren. Zudem ermöglicht das Dropout-Modul dem Pose-Regressor, mehrere Hypothesen zu generieren, wodurch die Unsicherheit der Pose-Schätzungen quantifiziert und in einer unsicherheitsbewussten Pose-Graph-Optimierung weitergenutzt werden kann, um die Robustheit zusätzlicher zu erhöhen. Wir erzielen eine durchschnittliche Genauigkeit von 9,98 m/3,63 ° auf dem RobotCar-Datensatz, was die state-of-the-art-Methode um 62,97 %/47,08 % übertrifft. Der Quellcode unserer Implementierung ist unter https://github.com/zju3dv/RVL-dynamic verfügbar.