
세부 시각 분류(fine-grained visual classification)에서 구분 가능한 국소 영역에서 특징 표현을 학습하는 것은 핵심적인 역할을 한다. 부분 특징을 추출하기 위해 주의 메커니즘(attention mechanism)을 활용하는 방법이 최근 주목받고 있다. 그러나 이러한 기법들은 두 가지 주요한 한계를 가지고 있다. 첫째, 대부분의 방법은 가장 두드러진 부분에 집중하면서도, 눈에 띄지 않지만 구분 가능한 다른 부분들을 간과한다. 둘째, 서로 다른 부분 특징들을 독립적으로 다루며, 이들 간의 관계를 고려하지 않는다. 이러한 한계를 극복하기 위해, 본 연구에서는 여러 가지 구분 가능한 부분을 명시적으로 탐지하고, 그들 간의 관계를 탐색하는 방법을 제안한다. 이를 위해 기존의 합성곱 신경망(convolutional neural networks)에 쉽게 통합할 수 있는 두 가지 경량 모듈을 도입한다. 한편으로는, 특징 맵의 가장 두드러진 부분을 강화하여 부분별 특징 표현을 얻고, 이를 억제함으로써 이후 네트워크가 다른 잠재적 부분을 탐색하도록 유도하는 특징 강화 및 억제 모듈을 제안한다. 다른 한편으로는, 상관관계를 가진 부분별 특징 표현들로부터 의미적으로 보완적인 정보를 학습하는 특징 다양화 모듈을 도입한다. 본 방법은 바운딩 박스 또는 부분 레이블(annotation)이 필요 없으며, 엔드투엔드(end-to-end)로 학습이 가능하다. 광범위한 실험 결과를 통해 제안하는 방법이 여러 벤치마크 세부 시각 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/chaomaer/FBSD.