17일 전

세부 시각 분류를 위한 새로운 플러그인 모듈

Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao
세부 시각 분류를 위한 새로운 플러그인 모듈
초록

시각 분류는 대분류 분류와 세분화 분류로 나눌 수 있다. 대분류 분류는 고양이와 개와 같은 큰 차이를 가진 카테고리를 나타내며, 반면 세분화 분류는 고양이 종, 새 종, 차량의 브랜드나 모델과 같이 매우 유사한 분류를 다룬다. 대분류 시각 분류와 달리, 세분화 시각 분류는 종종 전문가의 레이블링이 필요하므로 데이터 수집 비용이 높아진다. 이러한 문제를 해결하기 위해 많은 연구들이 가장 구분력 있는 영역을 자동으로 탐지하고, 국소적 특징을 활용하여 더 정밀한 특징을 제공하는 방법을 제안해 왔다. 이러한 접근법들은 이미지 수준의 레이블링만 필요하므로 레이블링 비용을 줄일 수 있다. 그러나 대부분의 기존 방법들은 이중 또는 다단계 아키텍처를 요구하며, 엔드 투 엔드로 학습할 수 없다는 한계가 있다. 이를 해결하기 위해, 우리는 다양한 일반적인 백본 네트워크—CNN 기반 또는 Transformer 기반—에 쉽게 통합할 수 있는 새로운 플러그인 모듈을 제안한다. 이 플러그인 모듈은 픽셀 수준의 특징 맵을 출력하고, 필터링된 특징을 융합함으로써 세분화 시각 분류 성능을 향상시킬 수 있다. 실험 결과, 제안한 플러그인 모듈은 최신 기술을 능가하며, CUB200-2011과 NABirds 데이터셋에서 각각 92.77%와 92.83%의 정확도를 달성하여 상당한 성능 향상을 보였다. 본 연구의 소스 코드는 GitHub에 공개되었으며, 다음 링크에서 확인할 수 있다: https://github.com/chou141253/FGVC-PIM.git.