
이미지와 해당 카테고리 라벨로 구성된 학습 데이터셋이 주어졌을 때, 딥 컨볼루션 신경망은 이미지 분류를 위한 차별적인 부분들을 발굴하는 데 강한 능력을 보여줍니다. 그러나 이미지 수준의 라벨만으로 훈련된 딥 컨볼루션 신경망은 가장 차별적인 부분들에만 집중하면서 다른 객체 부분들을 놓치는 경향이 있으며, 이러한 부분들은 보완 정보를 제공할 수 있습니다. 본 논문에서는 이 문제를 다른 관점에서 접근합니다. 우리는 딥 컨볼루션 신경망이 감지한 주요 객체 부분들에 의해 억눌린 정보를 검색하기 위해 약간의 감독(weakly supervised) 방식으로 보완적 부분 모델을 구축합니다. 이미지 수준의 라벨만 주어진 경우, Mask R-CNN과 CRF 기반 세그멘테이션을 사용하여 약간의 감독 객체 검출 및 인스턴스 세그멘테이션을 수행하여 대략적인 객체 인스턴스를 추출합니다. 그런 다음 가능한 한 다양성을 유지하는 원칙 하에 각 객체 인스턴스에 대해 최적의 부분 모델을 추정하고 탐색합니다. 마지막 단계에서는 이러한 보완적 부분들의 부분 정보를 이미지 분류를 위한 포괄적인 특성으로 융합하고 인코딩하기 위해 양방향 장단기 기억(LSTM) 네트워크를 구축합니다. 실험 결과, 제안된 방법은 기준 모델보다 유의미한 개선을 이루어냈으며, Stanford Dogs 120, Caltech-UCSD Birds 2011-200, Caltech 256 데이터셋에서 각각 6.7%, 2.8%, 5.2%의 큰 마진으로 최신 알고리즘들을 크게 앞섰음을 나타냅니다.