6ヶ月前

概要

自然景観とは異なり、航空画像は鳥瞰図视角から見た地表面に多数の物体が密集して配置されていることが多く、その記述にはより判別力の高い特徴量および局所的な意味情報が求められる。しかし、既存の多数の畳み込みニューラルネットワーク（ConvNets）は、画像のグローバルな意味情報を捉える傾向にあり、特にネットワークが深くなるにつれて低次および中次レベルの特徴量の喪失は避けがたい。これらの課題に対処するため、本論文では航空画像分類のためのマルチインスタンス密接接続型畳み込みネットワーク（MIDC-Net）を提案する。本手法は航空画像分類をマルチインスタンス学習（Multiple-Instance Learning, MIL）の問題として捉え、局所的な意味情報をより深く掘り下げることを可能にする。提案モデルは、インスタンスレベル分類器、マルチインスタンスプーリング、およびバッグレベル分類層から構成される。インスタンスレベル分類器では、異なるレベルの特徴量を効果的に保持できる簡略化された密接続構造を提案する。抽出された畳み込み特徴量は、さらにインスタンス特徴ベクトルに変換される。その後、学習可能なアテンションベースのマルチインスタンスプーリングを提案し、シーンラベルに関連する局所的な意味情報を強調し、直接バッグレベルの確率を出力する。最後に、バッグレベル分類層により、このマルチインスタンス学習フレームワークはバッグラベルによる直接的な監視下に置かれる。3つの広く用いられている航空画像ベンチマークにおける実験結果から、本手法は多くの最先端手法を大きく上回る性能を発揮しつつ、パラメータ数を大幅に削減できることを示した。

コードを表示