3달 전

서로를 통해 배워 더 잘 분류하기: 미세한 시각 분류를 위한 층 간 상호 주의 학습

{Jien Kato, Yu Wang, Longjiao Zhao, Dichao Liu}
서로를 통해 배워 더 잘 분류하기: 미세한 시각 분류를 위한 층 간 상호 주의 학습
초록

미세한 시각 분류(Fine-grained visual classification, FGVC)는 가치 있되 도전적인 과제이다. FGVC의 어려움은 본질적으로 클래스 간 유사성, 클래스 내 변동성, 그리고 제한된 학습 데이터에 기인한다. 더불어, 심층 합성곱 신경망의 보편화와 함께 연구자들은 주로 심층적이고 추상적인 의미 정보를 FGVC에 활용해왔지만, 얕은 층에서 얻는 세부 정보는 간과되어 왔다. 본 연구는 이러한 문제를 해결하기 위해 계층 간 상호 주의 학습 네트워크(Cross-layer Mutual Attention Learning Network, CMAL-Net)를 제안한다. 구체적으로, CNN의 얕은 층부터 깊은 층까지를 각기 다른 관점에 대해 전문적인 ‘전문가(experts)’로 간주한다. 각 전문가는 분류 예측과 발견된 단서를 나타내는 주의 영역(attention region)을 출력하도록 한다. 주의 영역은 전문가들 간의 정보 전달 매개체로 활용되며, 다음과 같은 세 가지 이점을 제공한다: (ⅰ) 모델이 구분력 있는 영역에 집중하도록 돕는다; (ⅱ) 추가적인 학습 데이터를 제공한다; (ⅲ) 전문가들 간의 상호 학습을 가능하게 하여 전반적인 성능을 향상시킨다. CMAL-Net은 FGVC-Aircraft, Stanford Cars, Food-11 세 가지 경쟁적 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다.