공중 장면 분류를 위한 다중 인스턴스 밀집 연결 컨브넷
자연 풍경과 달리 항공 영상은 조망각에서 지표면에 많은 객체들이 집중적으로 분포되어 있어, 이러한 영상의 묘사는 보통 더 높은 구분 능력을 갖춘 특징과 지역적 의미 정보를 요구한다. 그러나 기존의 대부분의 합성곱 신경망(ConvNets)은 이미지의 전반적인 의미를 묘사하는 데 치중하여, 특히 모델이 깊어질수록 저수준 및 중간 수준의 특징 정보가 손실되기 쉬운 문제가 있다. 이러한 도전 과제를 해결하기 위해 본 논문에서는 항공 영상 분류를 위한 다중 인스턴스 밀접 연결형 합성곱 신경망(MIDC-Net)을 제안한다. 제안한 모델은 항공 영상 분류 문제를 다중 인스턴스 학습(Multiple-Instance Learning, MIL) 문제로 간주함으로써, 지역적 의미 정보를 더욱 깊이 탐구할 수 있도록 한다. 제안한 분류 모델은 인스턴스 수준 분류기, 다중 인스턴스 풀링, 그리고 백 수준 분류층으로 구성된다. 인스턴스 수준 분류기에서는 다양한 수준의 특징을 효과적으로 보존하기 위해 간소화된 밀접 연결 구조를 제안한다. 추출된 합성곱 특징은 이후 인스턴스 특징 벡터로 변환된다. 그 후, 학습 가능한 주의 기반 다중 인스턴스 풀링을 제안하여, 영상 레이블과 관련된 지역적 의미 정보를 강조하고, 직접적으로 백 수준 확률을 출력한다. 마지막으로, 백 수준 분류층을 통해 본 다중 인스턴스 학습 프레임워크는 백 레이블에 의해 직접적인 감독을 받는다. 세 가지 널리 사용되는 항공 영상 벤치마크에서의 실험 결과를 통해, 제안한 방법이 많은 최첨단 기법들을 크게 능가하면서도 훨씬 적은 파라미터 수로 우수한 성능을 달성함을 확인하였다.