17일 전
ViT에서 얻은 무료 점심: 세부 시각 인식을 위한 적응형 어텐션 다중 스케일 융합 Transformer
Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen

초록
객체 부분에 대한 미세한 표현 학습은 미세 분류 시각 인식(FGVR) 분야에서 핵심적인 역할을 한다. 비전 트랜스포머(ViT)는 주목기능(attention mechanism) 덕분에 컴퓨터 비전 분야에서 희망적인 성과를 거두고 있다. 그러나 ViT는 패치 크기가 고정되어 있어, 깊은 층에서 클래스 토큰(class token)이 전역 수용 영역(global receptive field)에 집중되며, FGVR에 필요한 다중 해상도 특징을 생성할 수 없다는 한계가 있다. 박스(annotation) 없이 영역 주목을 캡처하고 ViT의 FGVR에서의 단점을 보완하기 위해, 본 연구는 새로운 방법론인 적응형 주목 다중 스케일 융합 트랜스포머(Adaptive Attention Multi-scale Fusion Transformer, AFTrans)를 제안한다. 본 방법의 선택적 주목 수집 모듈(Selective Attention Collection Module, SACM)은 ViT 내 주목 가중치를 활용하여 입력 패치들의 상대적 중요도에 따라 적응적으로 필터링한다. 다양한 스케일(전역 및 국소) 처리 파이프라인은 가중치 공유 인코더에 의해 감독되며, 엔드투엔드(end-to-end)로 간편하게 학습이 가능하다. 종합적인 실험을 통해 AFTrans가 CUB-200-2011, Stanford Dogs, iNat2017 세 가지 공개된 미세 분류 기준 데이터셋에서 최고 수준의 성능(SOTA)을 달성함을 입증하였다.