CoordiNet: unsicherheitsbewusster Pose-Regressor für zuverlässige Fahrzeuglokalisierung

In diesem Paper untersuchen wir eine auf Visuals basierende Kamerarelokalisation mit neuronalen Netzen für Anwendungen in der Robotik und autonomen Fahrzeugen. Unsere Lösung ist ein CNN-basiertes Algorithmus, der direkt aus einem einzigen Bild die Kamerapose (3D-Translation und 3D-Rotation) vorhersagt und zudem eine Unsicherheitsschätzung der Pose liefert. Pose und Unsicherheit werden gemeinsam mit einer einzigen Verlustfunktion gelernt und im Testzeitpunkt mittels eines Erweiterten Kalman-Filters (EKF) fusioniert. Darüber hinaus präsentieren wir eine neue vollständig konvolutionale Architektur namens CoordiNet, die darauf ausgelegt ist, bestimmte geometrische Eigenschaften der Szene zu integrieren. Unser Ansatz übertrifft vergleichbare Methoden auf dem größten verfügbaren Benchmark, dem Oxford RobotCar-Datensatz, mit einem durchschnittlichen Fehler von 8 Metern, wohingegen der bisher beste Wert bei 19 Metern lag. Zudem haben wir die Leistung unserer Methode auf großen Szenen für Echtzeit-Lokalisation (18 fps) bei Fahrzeugen untersucht. In diesem Setup erfordern strukturbasierte Methoden eine große Datenbank, und wir zeigen, dass unser Ansatz eine zuverlässige Alternative darstellt, indem er in einer 1,9 km langen Schleife in einer dicht besiedelten Stadt eine mediane Genauigkeit von 29 cm erreicht.