16日前

すべての粒度、一つの枠組み（AGOS）：航空画像シーン分類のためのマルチ粒度インスタンス表現学習

Qi Bi, Beichen Zhou, Kun Qin, Qinghao Ye, Gui-Song Xia

要約

航空画像のシーン分類は、以下の2つの要因により依然として課題を抱えている：1）シーンを決定する主要な対象物のサイズが著しく変動する；2）画像中にシーン分類と無関係な多数の対象物が多数存在し、情報の混在が生じる。したがって、さまざまなサイズの注目領域（RoI: Region of Interest）を効果的に捉え、複雑な対象分布からより識別性の高い表現を構築する手法の開発は、航空画像の理解にとって極めて重要である。本論文では、これらの課題に対処するため、新たな「すべての粒度、一つのシーン（All Grains, One Scheme: AGOS）」フレームワークを提案する。筆者らの知る限り、本研究は古典的な複数インスタンス学習（Multiple Instance Learning, MIL）をマルチグレイン（多粒度）形式へ拡張した初めての試みである。本フレームワークは、マルチグレイン感知モジュール（Multi-Grain Perception, MGP）、マルチブランチ複数インスタンス表現モジュール（Multi-Branch Multi-Instance Representation, MBMIR）、および自己整列型意味融合モジュール（Self-Aligned Semantic Fusion, SSF）から構成される。まず、MGPはバックボーンから得られる差分的な膨張畳み込み特徴を保持し、マルチグレインから得られる識別情報を拡大する。次に、MBMIRはMILの枠組みに基づき、マルチグレイン表現内における重要なインスタンスを強調する。最後に、SSFにより、本フレームワークは複数のグレインレベルのインスタンス表現から同一のシーンスキームを学習し、それらを融合可能となるように設計されており、全体として統合的に最適化される。特に、AGOSは柔軟性に富み、既存のCNNアーキテクチャにプラグアンドプレイ方式で容易に統合可能である。UCM、AID、NWPUの複数ベンチマークにおける広範な実験により、本提案手法は最先端手法と同等の性能を達成することが確認された。