TransFG: 세부 인식을 위한 Transformer 아키텍처

세부 시각 분류(Fine-grained visual classification, FGVC)는 하위 카테고리 수준에서 객체를 인식하는 것을 목표로 하며, 클래스 간 본질적으로 미묘한 차이 때문에 매우 도전적인 과제이다. 기존의 대부분의 연구들은 탐지된 구분 가능한 영역의 특징을 추출하기 위해 백본 네트워크를 재사용하는 방식으로 이 문제를 해결해왔다. 그러나 이러한 전략은 필수적인 파이프라인을 복잡하게 만들 뿐만 아니라, 제안된 영역이 객체의 대부분을 포함하게 되어 실제로 중요한 부분을 정확히 위치시키는 데 실패하는 경향이 있다. 최근에 비전 트랜스포머(Vision Transformer, ViT)는 전통적인 분류 작업에서 뛰어난 성능을 보여주고 있다. 트랜스포머의 자체 주의(Self-attention) 메커니즘은 각 패치 토큰을 분류 토큰과 연결한다. 본 연구에서는 먼저 ViT 아키텍처가 세부 시각 인식 환경에서 얼마나 효과적인지 평가한다. 이후 주의 링크가 토큰의 중요도를 직관적으로 나타낼 수 있다는 점에 착안하여, 대부분의 트랜스포머 아키텍처에 적용 가능한 새로운 '부분 선택 모듈(Part Selection Module)'을 제안한다. 이 모듈은 트랜스포머의 모든 원시 주의 가중치를 통합하여 주의 맵(attention map)을 생성함으로써, 네트워크가 구분 가능한 이미지 패치를 효과적이고 정확하게 선택하고, 그들 간의 관계를 계산하도록 안내한다. 또한 혼동되는 클래스들의 특징 표현 간 거리를 확대하기 위해 대조 손실(contrastive loss)을 적용한다. 이러한 증강된 트랜스포머 기반 모델을 TransFG라 명명하며, 다섯 개의 대표적인 세부 시각 분류 벤치마크에서 실험을 수행하여 최첨단 성능을 달성함으로써 그 가치를 입증한다. 모델의 이해를 돕기 위해 정성적 결과도 제시한다.