18일 전

다중 브랜치 및 다중 스케일 주의력 학습을 통한 미세한 시각적 분류

Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu
다중 브랜치 및 다중 스케일 주의력 학습을 통한 미세한 시각적 분류
초록

최근 몇 년간 컴퓨터 비전(CV) 분야에서 가장 권위 있는 학술 경쟁 대회 중 하나인 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)는 기존의 일반적인 시각 인식 과제에 뛰어난 성능을 보여주지만, 이를 미세한 시각 분류(Fine-Grained Visual Categorization, FGVC) 과제에 직접 적용할 경우 우수한 성능을 달성하지 못한다. FGVC 과제는 클래스 간의 미세한 차이와 클래스 내의 큰 변동성으로 인해 매우 도전적인 문제로 여겨진다. 본 연구에서는 객체 위치 예측 모듈(Attention Object Location Module, AOLM)을 통해 객체의 위치를 예측하고, 경계 상자 또는 부분 레이블이 필요 없이 정보성 있는 부분 영역을 제안하는 주의 부분 제안 모듈(Attention Part Proposal Module, APPM)을 제안한다. 이를 통해 얻어진 객체 이미지들은 객체의 거의 전체 구조를 포함하며 더 많은 세부 정보를 포함하며, 부분 이미지들은 다양한 크기와 더 높은 세부 특징을 지닌다. 또한 원본 이미지에는 객체 전체가 포함되어 있다. 이 세 가지 유형의 학습 이미지는 본 연구에서 제안하는 다중 브랜치 네트워크에 의해 각각 감독된다. 따라서 본 연구에서 제안하는 다중 브랜치 및 다중 스케일 학습 네트워크(Multi-Branch and Multi-Scale Learning Network, MMAL-Net)는 다양한 크기의 이미지에 대해 뛰어난 분류 능력과 강건성을 갖추고 있다. 본 방법은 엔드 투 엔드(end-to-end) 학습이 가능하며, 짧은 추론 시간을 제공한다. 종합적인 실험을 통해 CUB-200-2011, FGVC-Aircraft, Stanford Cars 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다. 본 연구의 코드는 https://github.com/ZF1044404254/MMAL-Net 에 공개될 예정이다.