세부 시각 분류에서 배경 효과를 제거하기 위한 어텐션 기반 위치 결정 알고리즘
미세한 시각 분류(Fine-grained visual classification, FGVC)는 클래스 간 유사성과 클래스 내 다양성이 두드러지는 도전적인 과제로, 다양한 응용 가능성을 지닌다. 최근 여러 연구에서는 비전 트랜스포머(Vision Transformer, ViT)를 FGVC 과제에 도입하고 있는데, 이는 ViT 내 다중 헤드 자기주의(Multihead Self-Attention, MSA) 메커니즘이 데이터 특수성에 적합하여 구분 가능한 특징 표현을 효과적으로 추출할 수 있기 때문이다. 그러나 이러한 기존 연구들은 주로 고수준에서 특징 간 의존성을 통합하는 데 집중하여, 저수준의 배경 정보에 쉽게 영향을 받는 문제를 야기한다. 이 문제를 해결하기 위해, 본 논문에서는 미세한 주의 집중 시각 트랜스포머(Fine-grained Attention-locating Vision Transformer, FAL-ViT)와 주의 선택 모듈(Attention Selection Module, ASM)을 제안한다. 먼저, FAL-ViT는 이미지 내 중요한 영역을 효과적으로 식별하고, 전략적으로 파라미터를 재사용함으로써 특징을 강화하는 이단계 프레임워크를 포함한다. 또한 ASM은 MSA의 자연스러운 점수를 활용하여 중요한 대상 영역을 정확히 위치시키고, 위치 매핑을 통해 더 세밀한 저수준 특징을 추출함으로써 보다 포괄적인 정보를 제공한다. 공개 데이터셋을 대상으로 실시한 광범위한 실험 결과, FAL-ViT는 타 방법들에 비해 성능 면에서 우수함을 입증하였으며, 제안된 방법의 효과성을 확인하였다. 소스 코드는 https://github.com/Yueting-Huang/FAL-ViT 에서 공개되어 있다.