2달 전

일반화된 제로샷 학습자를 활용한 개방형 영상 지리위치 추정

Lukas Haas; Silas Alberti; Michal Skreta
일반화된 제로샷 학습자를 활용한 개방형 영상 지리위치 추정
초록

이미지 지오로케일라이제이션은 주어진 사진의 기원 지리 좌표를 예측하는 어려운 과제입니다. 이는 다양한 지역에서 정확한 예측을 하기 위해 시각적 단서와 세계에 대한 일반적인 지식을 결합할 수 있는 능력에 의존하는 해결되지 않은 문제입니다. 본 연구에서는 $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$을 소개합니다. 이 모델은 공개적으로 사용 가능한 강건한 기초 모델로, 여러 개방형 도메인 이미지 지오로케일라이제이션 벤치마크에서 최고 성능을 달성하며, 400만 장 이상의 이미지를 학습한 감독된 모델보다도 제로샷 설정에서 더 우수한 성능을 보여줍니다. 우리의 방법론은 CLIP을 합성 캡션으로 사전 학습하여 선택된 도메인에 CLIP을 근거시키는 일반화된 제로샷 학습을 위한 메타학습 접근법을 도입합니다. 우리는 이 방법론이 CLIP의 일반화된 제로샷 능력을 이미지 지오로케일라이제이션 영역으로 효과적으로 전송하며, 고정된 클래스 집합으로 StreetCLIP을 미세 조정하지 않고도 영역 내 일반화된 제로샷 성능을 향상시킨다는 것을 보여주었습니다.

일반화된 제로샷 학습자를 활용한 개방형 영상 지리위치 추정 | 최신 연구 논문 | HyperAI초신경