要約
航空画像におけるシーン認識は、大規模な航空画像における物体の複雑な分布と空間配置のため、高い課題性を有している。近年の研究では、深層学習モデルの局所的意味表現能力の探求が試みられているが、いかにして正確に重要な局所領域を認識するかについては未解決の問題である。本論文では、航空画像における重要な局所領域のヒトの視覚認識を模倣することを目的として、局所的意味表現を強化したConvNet(LSE-Net)を提案する。本LSE-Netは、文脈強化型畳み込み特徴抽出器、局所的意味認識モジュール、分類層から構成される。まず、航空画像内の局所特徴応答を十分に捉えるために、学習可能な方法で複数レベル・複数スケールの畳み込み特徴を融合するためのマルチスケール拡張畳み込み演算子を設計した。次に、得られた特徴は二本の分岐を持つ局所的意味認識モジュールに入力される。このモジュールでは、重要な局所領域の視覚的インパルスとその周辺文脈情報を正確に表現するため、文脈認識型クラスピーク応答(CACPR)測定法を設計した。さらに、各重要な局所領域が航空画像において果たす重要性を記述するための空間的注意重み行列を抽出した。最後に、精緻化されたクラス信頼度マップが分類層に供給される。3つの航空画像分類ベンチマークにおける包括的な実験により、本LSE-Netは最先端の性能を達成した。これにより、提案する局所的意味認識モジュールおよびCACPR測定法の有効性が検証された。