세밀한 시각 분류 및 객체 재식별을 위한 이중 크로스 어텐션 학습

최근 자기 주의(self-attention) 메커니즘은 자연어 처리(NLP) 및 컴퓨터 비전(CV) 분야의 다양한 작업에서 뛰어난 성능을 보여주며, 순차적 특성과 전역 정보를 효과적으로 추출할 수 있다는 점에서 주목받고 있다. 본 연구에서는 미세한 특징 임베딩을 보다 효과적으로 학습하여 미세 분류 객체(예: 다양한 새 종류 또는 사람의 정체성)를 인식하는 데 있어 자기 주의 모듈을 어떻게 확장할 수 있는지 탐구한다. 이를 위해 자기 주의 학습과 조화를 이룰 수 있는 이중 교차 주의(double cross-attention learning, DCAL) 알고리즘을 제안한다. 먼저, 전역 이미지와 국소적인 고반응 영역 간의 상호작용을 강화하기 위해 전역-국소 교차 주의(global-local cross-attention, GLCA)를 제안한다. 이는 인식을 위한 공간적 구분 특징을 강화하는 데 기여한다. 두 번째로, 이미지 쌍 간의 상호작용을 구축하기 위해 쌍별 교차 주의(pair-wise cross-attention, PWCA)를 제안한다. PWCA는 한 이미지의 주의 학습을 다른 이미지를 방해 요소(distractor)로 삼아 정규화하며, 추론 단계에서는 제거된다. 실험을 통해 DCAL이 오해를 유도하는 주의를 줄이고, 주의 반응을 분산시켜 보다 보완적인 부분을 탐지함으로써 인식 성능을 향상시킨다는 점을 관찰하였다. 미세 분류 시각 인식 및 객체 재식별(task)에 걸쳐 광범위한 평가를 수행한 결과, DCAL은 최신 기술 수준의 방법들과 경쟁할 수 있는 성능을 보였으며, 다양한 자기 주의 기반 모델들에 대해 일관되게 개선 효과를 나타냈다. 예를 들어, MSMT17 데이터셋에서 DeiT-Tiny와 ViT-Base보다 각각 2.8%, 2.4% 높은 mAP 성능을 달성하였다.