
세부적인 시각 인식(Fine-grained visual recognition)은 외관이 유사한 객체들을 하위 카테고리로 분류하는 작업으로, 깊은 컨볼루션 신경망(deep CNNs)의 발전과 함께 큰 진전을 이루었다. 그러나 서로 다른 하위 카테고리 간의 미세한 차이를 효과적으로 다루는 것은 여전히 도전 과제로 남아 있다. 본 논문에서는 이러한 문제를 두 가지 측면에서 통합적인 프레임워크를 통해 해결하고자 한다. 즉, 특징 수준의 상호관계 구축과, 부분 수준의 구분 능력을 갖춘 특징 추출이다. 이를 위해 제안하는 프레임워크인 PArt-guided Relational Transformers(PART)는 자동 부분 탐지 모듈을 통해 구분 능력이 뛰어난 부분 특징을 학습하고, 자연어 처리 분야의 트랜스포머 모델을 적응시켜 특징 변환 모듈을 통해 내재된 상관관계를 탐색한다. 부분 탐지 모듈은 경사 하강법의 과정과 높은 상관성을 가지는 구분 가능한 영역을 효율적으로 탐지한다. 이후 두 번째 특징 변환 모듈은 전역 임베딩과 다수의 부분 임베딩 간의 상관관계를 구축하여 의미 있는 픽셀 간의 공간적 상호작용을 강화한다. 또한 본 연구에서 제안하는 방법은 추론 시 추가적인 부분 브랜치를 필요로 하지 않으며, 3개의 대표적인 세부적인 객체 인식 벤치마크에서 최신 기준(SOTA) 성능을 달성한다. 실험 결과 및 해석 가능한 시각화를 통해 제안한 방법의 효과성을 입증하였다. 코드는 다음 주소에서 확인할 수 있다: https://github.com/iCVTEAM/PART.