UAV-뷰 지오-로케이션을 위한 트랜스포머 기반 특성 분할 및 영역 정렬 방법

다른 시점에서 같은 지리적 이미지를 매칭하는 작업인 크로스-뷰 지오-로케이션은 무인 비행기(UAV)와 위성 등의 이미지를 대상으로 합니다. 이 작업의 가장 어려운 도전 과제는 위치 이동과 거리 및 스케일의 불확실성입니다. 기존 방법들은 주로 더 포괄적인 세부 정보를 추출하는 데 초점을 맞추고 있습니다. 그러나 이러한 접근 방식은 강건한 특징 표현을 추출하는 중요성과 특징 정렬의 영향을 과소평가하고 있습니다. CNN 기반 방법들은 크로스-뷰 지오-로케이션에서 큰 성공을 거두었지만 여전히 몇 가지 제한 사항이 있습니다. 예를 들어, 이 방법들은 근방의 일부 정보만 추출할 수 있으며, 일부 스케일 축소 연산은 세부 정보를 잃게 만듭니다.특히, 우리는 컨텍스트 정보 이해 능력과 인스턴스 분포 이해 능력을 향상시키기 위해 간단하면서도 효율적인 트랜스포머 기반 구조인 Feature Segmentation and Region Alignment (FSRA)를 소개합니다. FSRA는 추가적인 감독 정보 없이 트랜스포머의 특징 맵의 열 분포에 따라 지역을 나누고, 이후 다른 시점에서 여러 특정 지역들을 일대일로 정렬합니다. 마지막으로, FSRA는 각 지역을 하나의 특징 표현 집합으로 통합합니다. FSRA의 차별화된 점은 지역을 수동으로 나누지 않고, 특징 맵의 열 분포에 따라 자동으로 나눈다는 것입니다. 이렇게 하면 이미지에 큰 위치 이동이나 스케일 변화가 있어도 특정 인스턴스를 여전히 나누고 정렬할 수 있습니다.또한, 위성 이미지와 다른 소스에서 얻은 이미지 간의 수량 차이를 극복하기 위해 다중 샘플링 전략을 제안하였습니다. 실험 결과, 제안된 방법론은 우수한 성능을 보여주며 드론 시점 목표물 로케이션과 드론 내비게이션 두 작업 모두에서 최신 기술(SOTA) 수준의 성능을 달성하였습니다. 코드는 https://github.com/Dmmm1997/FSRA 에서 공개될 예정입니다.