
초록
이미지 지오로케일라이제이션은 주어진 사진의 기원 지리 좌표를 예측하는 어려운 과제입니다. 이는 다양한 지역에서 정확한 예측을 하기 위해 시각적 단서와 세계에 대한 일반적인 지식을 결합할 수 있는 능력에 의존하는 해결되지 않은 문제입니다. 본 연구에서는 $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$을 소개합니다. 이 모델은 공개적으로 사용 가능한 강건한 기초 모델로, 여러 개방형 도메인 이미지 지오로케일라이제이션 벤치마크에서 최고 성능을 달성하며, 400만 장 이상의 이미지를 학습한 감독된 모델보다도 제로샷 설정에서 더 우수한 성능을 보여줍니다. 우리의 방법론은 CLIP을 합성 캡션으로 사전 학습하여 선택된 도메인에 CLIP을 근거시키는 일반화된 제로샷 학습을 위한 메타학습 접근법을 도입합니다. 우리는 이 방법론이 CLIP의 일반화된 제로샷 능력을 이미지 지오로케일라이제이션 영역으로 효과적으로 전송하며, 고정된 클래스 집합으로 StreetCLIP을 미세 조정하지 않고도 영역 내 일반화된 제로샷 성능을 향상시킨다는 것을 보여주었습니다.