
사진의 픽셀만을 사용하여 그 사진이 촬영된 위치를 결정하는 시스템을 구축할 수 있을까요? 일반적으로 이 문제는 매우 어려워 보입니다: 위치를 추론할 수 없는 상황을 만드는 것이 간단하기 때문입니다. 그러나 이미지는 종종 랜드마크, 기상 패턴, 식물, 도로 표지, 건축 세부 사항과 같은 정보적인 힌트를 포함하고 있으며, 이러한 힌트들을 조합하면 대략적인 위치를 결정할 수 있고 때때로 정확한 위치까지도 파악할 수 있습니다. GeoGuessr와 View from your Window와 같은 웹사이트들은 인간이 이러한 힌트들을 통합하여 이미지를 지리적으로 위치시키는 데 상대적으로 능하다는 점을 시사합니다, 특히 대량으로 처리할 때 더욱 그렇습니다. 컴퓨터 비전 분야에서는 사진 지리위치 추정 문제를 주로 이미지 검색 방법을 사용하여 접근합니다. 반면에 우리는 지구 표면을 수천 개의 다중 스케일 지리적 셀로 나누고, 수백만 개의 지오태깅된 이미지를 사용하여 깊은 네트워크를 학습시키는 방식으로 이 문제를 분류 문제로 제시합니다. 과거의 접근법들이 단순히 랜드마크만 인식하거나 전역 이미지 설명자를 사용하여 근사 매칭을 수행하는 것에 불과했지만, 우리의 모델은 여러 가지 가시적인 힌트들을 사용하고 통합할 수 있습니다. 결과적으로 생성된 모델인 PlaNet(플라넷)이 과거의 접근법들을 능가하며, 일부 경우에는 인간보다 더 높은 정확도를 달성한다는 것을 보여주었습니다. 또한 우리는 LSTM(장단기 기억) 아키텍처와 결합하여 사진 앨범에도 적용할 수 있는 모델을 확장하였습니다. 시간적 일관성을 활용하여 불확실한 사진들의 위치를 추정함으로써, 이 모델이 단일 이미지 모델보다 50% 성능 향상을 이루었다는 것을 입증하였습니다.