RAMS-Trans: 반복적 주의 다중 규모 트랜스포머를 이용한 미세한 이미지 인식

미세한 이미지 인식(FGIR)에서 영역 주의의 국소화 및 증폭은 중요한 요소이며, 기존의 합성곱 신경망(CNN) 기반 접근법을 통해 광범위하게 탐구되어 왔다. 최근 개발된 비전 트랜스포머(ViT)는 컴퓨터 비전 작업에서 희망적인 성과를 달성하고 있다. CNN과 비교할 때, 이미지의 시퀀스화는 완전히 새로운 방식으로 여겨진다. 그러나 ViT는 고정된 패치 크기로 인해 수용 영역(receptive field) 크기가 제한되어 CNN과 같은 국소적 주의를 갖지 못하며, 다양한 스케일의 특징을 생성하여 구분력 있는 영역 주의를 학습하는 데 어려움을 겪는다. 구분력 있는 영역 주의를 상자 또는 부분 레이블 없이 학습할 수 있도록 하기 위해, 우리는 원본 이미지에 대응하는 패치 토큰의 중요도를 주의 가중치의 강도를 통해 측정하는 방식을 활용한다. 본 연구에서는 트랜스포머의 자기 주의(self-attention)를 활용하여 다중 스케일 방식으로 반복적으로 구분력 있는 영역 주의를 학습하는 재귀적 주의 다중 스케일 트랜스포머(RAMS-Trans)를 제안한다. 특히 본 연구의 핵심은 다이나믹 패치 제안 모듈(DPPM)을 활용한 영역 증폭을 통한 다중 스케일 이미지 패치의 통합이다. DPPM은 전체 크기의 이미지 패치로 시작하여, 각 스케일에서 생성된 주의 가중치의 강도를 지표로 삼아, 전역에서 국소로 나아가면서 영역 주의를 반복적으로 확대하여 새로운 패치를 생성한다. 제안하는 방법은 ViT 자체에서 제공하는 주의 가중치만을 요구하며, 엔드투엔드(end-to-end) 학습이 용이하다. 광범위한 실험을 통해 RAMS-Trans가 동시대의 다른 기법들과 더불어 효율적인 CNN 모델보다 우수한 성능을 보이며, 세 가지 벤치마크 데이터셋에서 최신 기술(SOTA) 수준의 성과를 달성함을 입증하였다.