모든 곡물, 하나의 계획(AGOS): 항공 풍경 분류를 위한 다중 곡물 인스턴스 표현 학습

항공 영상 분류는 다음과 같은 두 가지 도전 과제로 인해 여전히 어렵다: 1) 장면을 결정짓는 핵심 객체의 크기가 매우 다양하며, 2) 이미지 내에 장면 분류와 관련 없는 객체들이 과도하게 포함되어 있는 경우가 많다. 따라서 다양한 크기의 관심 영역(Region of Interests, RoIs)을 효과적으로 인지하고, 이러한 복잡한 객체 분포로부터 더 구분력 있는 표현을 구축하는 것은 항공 영상을 이해하는 데 핵심적인 과제이다. 본 논문에서는 이러한 과제를 해결하기 위해 새로운 ‘모든 입자, 하나의 장면(All Grains, One Scheme, AGOS)’ 프레임워크를 제안한다. 알려진 바에 따르면, 이는 고전적인 다중 인스턴스 학습(Multiple Instance Learning, MIL)을 다중 입자(multi-grain) 형식으로 확장한 최초의 연구이다. 특히, 본 프레임워크는 다중 입자 인지 모듈(Multi-Grain Perception Module, MGP), 다중 분기 다중 인스턴스 표현 모듈(Multi-Branch Multi-Instance Representation Module, MBMIR), 그리고 자기 정렬적 의미 융합 모듈(Self-Aligned Semantic Fusion Module, SSF)로 구성된다. 먼저, MGP는 백본 네트워크로부터 얻은 차별적 확장 컨볼루션 특징을 보존하여 다중 입자 차원에서의 구분 정보를 강화한다. 다음으로, MBMIR은 MIL 설정 하에서 다중 입자 표현 내의 핵심 인스턴스를 강조한다. 마지막으로, SSF는 다양한 입자 수준의 인스턴스 표현으로부터 동일한 장면 체계를 학습하고 이를 융합할 수 있도록 하여, 전체 프레임워크가 종합적으로 최적화되도록 한다. 특히, 제안한 AGOS는 유연성이 뛰어나 기존의 CNN 구조에 플러그 앤 플레이 방식으로 쉽게 적용 가능하다. UCM, AID, NWPU 등의 표준 벤치마크에서 실시한 광범위한 실험 결과를 통해 AGOS가 최신 기술 대비 경쟁력 있는 성능을 달성함을 입증하였다.