3달 전

효율적인 엔드투엔드 로컬라이제이션을 통한 세부 시각 분류

Harald Hanselmann, Hermann Ney
효율적인 엔드투엔드 로컬라이제이션을 통한 세부 시각 분류
초록

세부적인 시각 분류(Fine-grained Visual Classification, FGVC)란 클래스 간의 차이가 매우 미세하여, 분류 모델이 미세한 차이를 파악할 수 있어야 정확한 예측을 할 수 있는 분류 과제를 의미한다. 최신 기법들은 분류 네트워크의 성능을 높이기 위해 입력 이미지의 관련 부분을 정확히 위치화하는 단계를 포함하는 경우가 많다. 그러나 이러한 접근 방식은 일반적으로 전체 분류 네트워크를 여러 번 반복적으로 통과시키거나, 복잡한 학습 스케줄을 요구하는 등의 문제를 동반한다. 본 연구에서는 분류 네트워크와 엔드투엔드(end-to-end) 구조로 통합할 수 있는 효율적인 위치화 모듈을 제안한다. 제안한 모듈은 분류 네트워크로부터 역전파되는 기울기 정보를 통해 학습되며, 동시에 두 가지 자기지도 학습(self-supervised) 손실 함수를 도입하여 위치화 정확도를 향상시킨다. 제안한 모델은 CUB200-2011, Stanford Cars, FGVC-Aircraft 세 가지 벤치마크 데이터셋에서 평가되었으며, 경쟁력 있는 인식 성능을 달성하였다.