Transformer를 활용한 통합적 특성 및 비용 집계 방법에 대한 연구: 밀도 높은 대응 관계 추출

우리는 밀도 대응을 위한 새로운 아키텍처를 제시합니다. 현재 최신 기술은 특징 설명자(feature descriptors) 또는 비용 체적(cost volume) 집계에 초점을 맞춘 Transformer 기반 접근 방식입니다. 그러나 이러한 방법들은 일반적으로 둘 중 하나만 집계하며, 둘 모두를 동시에 집계하지는 않습니다. 하지만 공동 집계는 각각이 가지고 있지 않은 정보, 즉 이미지의 구조적 또는 의미론적 정보나 픽셀 단위 매칭 유사성을 제공함으로써 서로를 강화할 수 있습니다. 본 연구에서는 이러한 보완적인 정보를 활용하는 방식으로 두 가지 형태의 집계를 교차시키는 새로운 Transformer 기반 네트워크를 제안합니다.특히, 우리는 설명자를 활용하여 노이즈가 많은 비용 체적을 명확하게 구분하고, 비용 체적을 이용하여 정확한 매칭을 촉진하는 방식으로 특징들을 집계하는 자기 주의(self-attention) 계층을 설계하였습니다. 그 다음에는 두 이미지의 설명자를 기반으로 조건부로 추가적인 집계를 수행하며, 이전 계층들의 집계된 출력을 활용하는 교차 주의(cross-attention) 계층이 따릅니다. 또한, 더 나은 성능을 위해 계층적 처리(hierarchical processing)를 도입하였으며, 이는 더 거친 수준의 집계가 더 세밀한 수준의 집계를 안내하는 방식으로 이루어집니다.우리는 제안된 방법의 효과성을 밀도 매칭 작업에서 평가하였고, 모든 주요 벤치마크에서 최상의 성능을 달성하였습니다. 또한 광범위한 축소 실험(ablation studies)을 통해 우리의 설계 선택이 유효함을 검증하였습니다.