PlaNet - Foto-Geolokalisierung mit Faltungsneuronalen Netzen

Ist es möglich, ein System zu entwickeln, das den Ort bestimmt, an dem ein Foto aufgenommen wurde, ausschließlich anhand seiner Pixel? Im Allgemeinen erscheint das Problem außerordentlich schwierig: Es ist einfach, Situationen zu konstruieren, in denen kein Ort abgeleitet werden kann. Dennoch enthalten Bilder oft informative Hinweise wie Wahrzeichen, Wettermuster, Vegetation, Straßenschilder und architektonische Details, die in Kombination es ermöglichen können, einen ungefähren Ort und gelegentlich sogar einen genauen Ort zu bestimmen. Webseiten wie GeoGuessr und View from your Window deuten darauf hin, dass Menschen relativ gut darin sind, diese Hinweise zu integrieren, um Bilder geografisch zuzuordnen, insbesondere in größeren Mengen. Im Bereich der Computer Vision wird das Problem der Foto-Geolokalisierung in der Regel mit Bildsuchmethoden angegangen. Im Gegensatz dazu formulieren wir das Problem als Klassifikationsaufgabe, indem wir die Oberfläche der Erde in Tausende von mehrskaligen geografischen Zellen unterteilen und ein tiefes Netzwerk mit Millionen von geotaggen Bildern trainieren. Während frühere Ansätze sich nur auf die Erkennung von Wahrzeichen oder die approximative Abstimmung mithilfe globaler Bildbeschreibungen konzentrierten, ist unser Modell in der Lage, mehrere sichtbare Hinweise zu verwenden und zu integrieren. Wir zeigen, dass das resultierende Modell, PlaNet genannt, frühere Ansätze übertrifft und in manchen Fällen sogar übermenschliche Genauigkeit erreicht. Darüber hinaus erweitern wir unser Modell auf Fotoalben durch die Kombination mit einer Long Short-Term Memory (LSTM)-Architektur. Indem wir lernen, zeitliche Kohärenz auszunutzen, um unsichere Fotos zu lokalisieren, demonstrieren wir, dass dieses Modell eine Leistungssteigerung von 50 % im Vergleich zum Einzelbildmodell erreicht.