
세부 시각 분류(Fine-Grained Visual Categorization, FGVC) 문제를 해결하는 핵심은 미세하지만 구분력 있는 특징을 학습하는 데 있다. 기존 대부분의 연구들은 CNN 기반 접근법을 통해 구분력 있는 부분을 명시적으로 선택하거나 주의 메커니즘(attention mechanism)을 통합함으로써 이를 달성해왔다. 그러나 이러한 방법들은 계산 복잡도를 증가시키며, 모델이 객체가 가장 많이 포함된 영역에 과도하게 의존하게 만든다. 최근에는 비전 트랜스포머(Vision Transformer, ViT)가 일반 이미지 인식 작업에서 최고 성능(SOTA)을 달성하고 있다. ViT의 자기 주의(self-attention) 메커니즘은 모든 패치로부터 정보를 집계하고 가중치를 부여하여 분류 토큰(classification token)에 전달하므로, FGVC에 매우 적합하다. 그러나 깊은 층에서의 분류 토큰은 전반적인 정보에 더 집중하게 되어, FGVC에 필수적인 국소적이고 저수준의 특징을 충분히 반영하지 못하는 문제가 있다. 본 연구에서는 각 트랜스포머 레이어에서 중요한 토큰을 집계하여 국소적, 저수준 및 중간 수준의 정보를 보완하는 새로운 순수 트랜스포머 기반 프레임워크인 특징 융합 비전 트랜스포머(Feature Fusion Vision Transformer, FFVT)를 제안한다. 또한 추가적인 파라미터 없이 네트워크가 구분력 있는 토큰을 효과적이고 효율적으로 선택하도록 유도하기 위해, 상호 주의 가중치 선택(Mutual Attention Weight Selection, MAWS)이라는 새로운 토큰 선택 모듈을 설계하였다. 제안한 FFVT는 세 가지 벤치마크에서 검증되었으며, 전반적으로 최고 성능을 달성함으로써 그 효과성을 입증하였다.