Google Landmarks Dataset v2 — 인스턴스 수준 인식 및 검색을 위한 대규모 벤치마크

이미지 검색 및 인스턴스 인식 기술이 급속도로 발전하고 있지만, 이러한 기술의 성능을 정확히 측정하고 실제 응용 분야에 부합하는 새로운 도전 과제를 제시할 수 있는 도전적인 데이터셋이 필요하다. 본 연구에서는 인간이 만든 및 자연적인 랜드마크 영역에서 대규모이고 세부적인 인스턴스 인식 및 이미지 검색을 위한 새로운 기준 데이터셋인 Google Landmarks Dataset v2(GLDv2)를 소개한다. GLDv2는 기존 데이터셋을 크게 뛰어넘어 현재까지 가장 큰 규모의 데이터셋으로, 500만 개 이상의 이미지와 20만 개 이상의 고유한 인스턴스 레이블을 포함하고 있다. 테스트 세트는 검색 및 인식 작업 모두에 대한 정답 레이블이 제공된 11만 8천 개의 이미지로 구성되어 있으며, 정답 데이터 구축에는 800시간 이상의 인간 평가자 작업이 투입되었다. 본 데이터셋은 이전 데이터셋이 고려하지 않았던 실제 응용 환경에서 유래한 몇 가지 도전적인 특성을 지니고 있다: 극단적으로 긴 꼬리 형태의 클래스 분포, 대규모의 도메인 외부 이미지, 그리고 클래스 내부의 높은 변동성. 데이터셋은 세계 최대의 커뮤니티 기반 사진 컬렉션인 Wikimedia Commons에서 수집되었다. 본 연구에서는 최신 기술 기반의 상태-최고(SOTA) 방법을 활용하여 인식 및 검색 작업에 대한 베이스라인 성능을 제시하고, 공개 챌린지에서 얻어진 경쟁적인 성능 결과도 함께 제공한다. 또한, 독립적인 데이터셋에서 이미지 임베딩을 GLDv2에서 훈련한 결과가 경쟁력 있는 검색 성능을 달성함으로써, 본 데이터셋이 전이 학습(transfer learning)에 적합함을 입증한다. 데이터셋 이미지, 정답 레이블 및 평가 메트릭 코드는 https://github.com/cvdfoundation/google-landmark 에서 공개되어 있다.