2달 전

PIGEON: 이미지 지리위치 예측

Lukas Haas; Michal Skreta; Silas Alberti; Chelsea Finn
PIGEON: 이미지 지리위치 예측
초록

전 세계 어디에서나 찍힌 이미지의 다양성 때문에 행성 규모의 이미지 지리위치 결정은 여전히 어려운 문제입니다. 비전 트랜스포머를 기반으로 하는 접근법이 지리위치 결정 정확도에서 상당한 진전을 이뤘음에도 불구하고, 기존 연구에서는 랜드마크 이미지의 좁은 분포에만 성공적이었으며, 미처 보지 못한 장소로의 성능 일반화는 이루어지지 않았습니다. 우리는 의미 지오셀 생성, 다중 작업 대조 사전 학습, 그리고 새로운 손실 함수를 결합한 새로운 지리위치 결정 시스템을 제시합니다. 또한, 우리의 작업은 추측 개선을 위해 위치 클러스터에 대한 검색을 처음으로 수행하였습니다.우리는 거리 수준 데이터와 일반 목적 이미지 지리위치 결정 평가를 위해 두 가지 모델을 훈련시켰습니다. 첫 번째 모델인 PIGEON은 Geoguessr 게임의 데이터로 훈련되었으며, 전 세계적으로 목표 위치로부터 25km 이내에 40% 이상의 추측을 할 수 있는 능력을 가지고 있습니다. 우리는 또한 봇을 개발하여 인간과의 맹목적 실험에서 PIGEON을 배치하였고, 플레이어 중 상위 0.01%에 랭크되었습니다. 더 나아가, 세계 최고의 프로페셔널 Geoguessr 플레이어와 수백만 명의 시청자 앞에서 6번의 경기를 진행하여 모든 경기를 승리하였습니다.두 번째 모델인 PIGEOTTO는 Flickr와 Wikipedia에서 수집된 이미지 데이터셋으로 훈련된 점이 다르며, 다양한 이미지 지리위치 결정 벤치마크에서 최상의 결과를 달성하였습니다. 도시 정확도 수준에서는 이전 최고 기술(SOTA)보다 최대 7.7% 포인트, 국가 수준에서는 최대 38.8% 포인트 우수한 성능을 보였습니다. 우리의 연구 결과는 PIGEOTTO가 처음으로 미처 보지 못한 장소에서도 효과적으로 일반화되는 이미지 지리위치 결정 모델이며, 우리의 접근 방식이 매우 정확한 행성 규모의 이미지 지리위치 결정 시스템 개발에 길을 열 것임을 시사합니다. 우리의 코드는 GitHub에서 이용 가능합니다.

PIGEON: 이미지 지리위치 예측 | 최신 연구 논문 | HyperAI초신경