2달 전

우리가 어디에 있는지 그리고 무엇을 보고 있는지: 계층 구조와 장면을 활용한 전 세계 이미지 지오로케이션 쿼리 기반 접근법

Brandon Clark; Alec Kerrigan; Parth Parag Kulkarni; Vicente Vivanco Cepeda; Mubarak Shah
우리가 어디에 있는지 그리고 무엇을 보고 있는지: 계층 구조와 장면을 활용한 전 세계 이미지 지오로케이션 쿼리 기반 접근법
초록

사진이 촬영된 정확한 위도와 경도를 결정하는 것은 유용하고 널리 적용할 수 있는 작업이지만, 다른 컴퓨터 비전 작업들의 급속한 발전에도 불구하고 여전히 매우 어려운 문제입니다. 이전의 대부분 접근 방식은 단일 표현을 학습하여 질의 이미지를 다양한 지리적 세분화 수준에서 분류하는 방법을 선택했습니다. 이러한 접근 방식들은 국가, 주, 도시 등의 다양한 계층에 맥락을 제공하는 시각적 힌트들을 활용하지 못하였습니다. 이를 해결하기 위해, 우리는 각 지리적 계층(우리는 이를 계층이라고 부릅니다)과 이미지 내의 시각적 장면 정보 간의 관계를 계층적 크로스-어텐션을 통해 활용하는 엔드투엔드 트랜스포머 기반 아키텍처를 소개합니다. 우리는 이를 통해 각 지리적 계층과 장면 유형에 대한 질의를 학습합니다. 또한, 동일 위치 내에서도 서로 다른 시각적 특징으로 정의되는 다양한 환경 장면에 대해 별도의 표현을 학습합니다. 이로 인해 우리는 Im2GPS, Im2GPS3k, YFCC4k, YFCC26k 등 4개 표준 지오-로케이션 데이터셋에서 최고 수준의 거리급 정확도를 달성하였으며, 이전 방법들에서는 보여주지 않았던 다양한 시각적 계층과 장면에 대한 다른 표현을 학습하는 과정을 질적으로 입증하였습니다.이러한 이전 테스트 데이터셋들은 주로 상징적인 명소나 소셜 미디어에서 촬영된 이미지로 구성되어 있어, 기억력 작업이거나 특정 장소에 편향되기 쉽습니다. 이 문제를 해결하기 위해, 우리는 전 세계 구글 스트리트뷰에서 촬영된 이미지들로 구성된 훨씬 더 어려운 테스트 데이터셋인 Google-World-Streets-15k를 소개하며, 이 데이터셋에서도 최고 수준의 결과를 제시합니다. 우리의 코드는 카메라 레디 버전에서 공개될 예정입니다.

우리가 어디에 있는지 그리고 무엇을 보고 있는지: 계층 구조와 장면을 활용한 전 세계 이미지 지오로케이션 쿼리 기반 접근법 | 최신 연구 논문 | HyperAI초신경