HSI-BERT:Transformerからの双方向エンコーダ表現を用いたハイパースペクトル画像分類
深層学習手法は、高スペクトル画像分類において広く用いられ、最先端の性能を達成している。しかし、既存の深層学習手法には、受容 field の制限、柔軟性の欠如、および一般化能力の難しさといった課題が存在する。これらの問題を解決するため、本研究では「HSI-BERT」を提案する。ここで、BERT は「Transformer からの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers)」を意味し、HSI は「高スペクトル画像(Hyperspectral Imagery)」を表す。提案する HSI-BERT は、空間的な距離にかかわらず画素間のグローバルな依存関係を捉えるグローバルな受容 field を備えており、非常に柔軟な構造を持つ。これにより、入力領域の形状やサイズを柔軟かつ動的に変更することが可能である。さらに、HSI-BERT は複数の領域形状に対して再訓練せずに一般化が可能であり、優れた一般化能力を有している。HSI-BERT の基本構造は、マルチヘッド自己注意(Multi-Head Self-Attention, MHSA)機構を備えた MHSA レイヤーに基づいている。複数の注意機構が異なるヘッドによって学習され、各ヘッドは意味的文脈に応じた表現をエンコードすることで、識別性の高い特徴を抽出する。すべてのヘッドによる特徴が統合されることで、空間的・スペクトル的情報を統合した特徴が得られ、画素レベルの高精度な分類に不可欠な情報が保持される。定量的および定性的な評価結果から、HSI-BERT は従来のすべての CNN を基盤とするモデルと比較して、分類精度および計算時間の両面で優れた性能を発揮し、広く用いられている3つの高スペクトル画像データセットにおいて最先端の性能を達成した。