Schätzung der Geolokalisierung von Fotos mittels eines hierarchischen Modells und Szenenklassifikation

Obwohl die erfolgreiche Schätzung der Geolokalisierung eines Fotos eine Reihe interessanter Anwendungen ermöglicht, stellt sie gleichzeitig eine äußerst anspruchsvolle Aufgabe dar. Aufgrund der Komplexität des Problems sind die meisten bestehenden Ansätze auf bestimmte Regionen, Bildmaterialien oder weltweite Sehenswürdigkeiten beschränkt. Nur wenige Vorschläge ermöglichen die Vorhersage von GPS-Koordinaten ohne solche Einschränkungen. In diesem Paper stellen wir mehrere tiefen Lernmethoden vor, die diesem letzteren Ansatz folgen und die Geolokalisierung als Klassifizierungsaufgabe behandeln, bei der die Erde in geographische Zellen unterteilt wird. Wir schlagen vor, hierarchisches Wissen mehrerer Unterteilungen auszunutzen und zusätzlich den Szeneninhalt des Fotos zu extrahieren und zu berücksichtigen, beispielsweise innenliegende, natürliche oder städtische Umgebungen. Dadurch werden kontextuelle Informationen auf unterschiedlichen räumlichen Auflösungen sowie spezifischere Merkmale für verschiedene Umgebungsbedingungen in den Lernprozess des konvolutionellen neuronalen Netzes integriert. Experimentelle Ergebnisse auf zwei Benchmarks belegen die Wirksamkeit unseres Ansatzes, der die State-of-the-Art-Methoden übertrifft, dabei aber deutlich weniger Trainingsbilder benötigt und auf Retrieval-Methoden verzichtet, die eine geeignete Referenzdatenbank erfordern.