재방문: 이미지 세그먼트 검색을 통한 시각적 장소 인식

재방문한 장소를 정확히 인식하는 것은 물리적 에이전트가 위치를 파악하고 이동하는 데 있어 매우 중요합니다. 이는 카메라 시점과 장면의 외관에 큰 변화가 있음에도 불구하고 시각적 표현이 명확하게 구분되어야 함을 의미합니다. 기존의 시각적 장소 인식 파이프라인은 '전체' 이미지를 인코딩하여 일치하는 항목을 검색합니다. 그러나 같은 장소에서 다른 카메라 시점으로 촬영된 두 이미지를 일치시키는 데 기본적인 도전 과제가 있습니다: "일치하는 부분의 유사성이 일치하지 않는 부분의 차이에 의해 지배될 수 있다"는 것입니다. 우리는 이를 해결하기 위해 전체 이미지 대신 '이미지 세그먼트'를 인코딩하고 검색하도록 제안합니다. 우리는 오픈셋 이미지 세그멘테이션을 사용하여 이미지를 '의미 있는' 엔티티(즉, 사물과 배경)로 분해하는 방법을 제안합니다. 이를 통해 세그먼트와 그 주변 세그먼트를 연결하는 여러 중복 서브그래프의 모음을 새로운 이미지 표현으로 만들 수 있으며, 이를 슈퍼세그먼트(SuperSegment)라고 명명하였습니다. 또한, 이러한 슈퍼세그먼트를 효율적으로 컴팩트한 벡터 표현으로 인코딩하기 위해 특징 집계의 새로운 분할 표현을 제안합니다. 실험 결과, 이러한 부분 표현을 검색하면 일반적인 전체 이미지 기반 검색보다 상당히 더 높은 인식 재현률을 보임을 확인하였습니다. 우리의 세그먼트 기반 접근 방식인 SegVLAD는 다양한 벤치마크 데이터셋에서 새로운 최고 성능을 달성하였으며, 일반적인 이미지 인코더와 특정 작업에 특화된 이미지 인코더 모두에 적용 가능합니다. 마지막으로, 우리의 방법이 "어떤 것이든 재방문"할 잠재력을 보여주기 위해 객체 인스턴스 검색 작업에서 우리의 방법을 평가하였습니다. 이는 시각적 장소 인식과 객체 목표 탐색이라는 두 가지 서로 다른 연구 영역 사이의 공통 목표인 특정 장소의 목표 객체를 인식하는 것을 통해 연결됩니다. 소스 코드: https://github.com/AnyLoc/Revisit-Anything.