세부 이미지 인식을 위한 다중 주의력 컨볼루션 신경망 학습

세부 분류(category, 예: 조류 종류)를 인식하는 것은 특히 구분력 있는 부분(localization)의 위치 파악과 부분 기반 세부 특징 학습에 크게 의존한다. 기존의 접근 방식들은 이러한 과제들을 독립적으로 해결하려는 경향이 있으며, 부분 위치 파악(예: 조류의 머리 부분)과 세부 특징 학습(예: 머리 모양) 간의 상호 상관관계를 간과하고 있다. 본 논문에서는 다중 주의(multi-attention) 컨볼루션 신경망(MA-CNN)을 활용한 새로운 부분 학습 방식을 제안한다. 이 방식에서는 부분 생성과 특징 학습이 서로 보완적으로 작용할 수 있도록 설계되어 있다. MA-CNN는 컨볼루션, 채널 그룹화(channel grouping), 부분 분류(sub-network)의 세 가지 하위 네트워크로 구성된다. 채널 그룹화 네트워크는 컨볼루션 계층에서 출력된 특징 채널을 입력으로 받아, 공간적으로 상관관계가 있는 채널들을 군집화하고 가중치를 부여하며 풀링하여 다수의 부분을 생성한다. 부분 분류 네트워크는 각각의 부분을 통해 이미지를 분류함으로써, 더 구분력 있는 세부 특징을 학습할 수 있도록 한다. 채널 그룹화와 부분 분류의 다중 작업 학습을 유도하기 위해 두 가지 손실 함수(loss)를 제안하였으며, 이는 MA-CNN이 특징 채널로부터 더 구분력 있는 부분을 생성하고, 생성된 부분에서 더 우수한 세부 특징을 상호 보완적으로 학습하도록 유도한다. MA-CNN는 경계 박스 또는 부분(annotation) 정보가 필요 없으며, 엔드 투 엔드(end-to-end)로 훈련이 가능하다. 본 연구에서는 MA-CNN를 통해 학습된 부분 정보를 part-CNN과 결합하여 인식 성능을 향상시켰으며, CUB-Birds, FGVC-Aircraft, Stanford-Cars 등 세 가지 도전적인 공개 세부 분류 데이터셋에서 최고의 성능을 기록하였다.