FPGA:完全エンドツーエンド型高光譜画像分類のための高速パッチフリー全体学習フレームワーク

深層学習技術は、ハイパースペクトル画像(HSI)分類において顕著な進展をもたらした。現在の深層学習ベースのHSI分類器は、画像を重複するパッチに分割することでパッチベースの学習フレームワークを採用している。このため、これらの手法は局所的な学習法であり、高い計算コストを伴う。本論文では、HSI分類に向けた高速なパッチフリー・グローバル学習(FPGA)フレームワークを提案する。FPGAでは、エンコーダ・デコーダ構造を備えたFCN(畳み込みニューラルネットワーク)を用いて、画像全体を処理することでグローバルな空間情報を捉える。これにより、高速な推論が実現される。しかしながら、限られた訓練サンプルによる勾配の多様性不足により、エンコーダ・デコーダ構造のFCNを直接HSI分類に適用することは困難であり、収束しない場合が多い。本研究では、この発散問題を解決しつつ、FCNの高速推論およびグローバル空間情報の抽出能力を維持するため、すべての訓練サンプルをストキャスティックな階層化サンプルの順序に変換する、グローバルな確率的階層的サンプリング戦略を初めて提案する。この戦略により、多様な勾配を獲得でき、FPGAフレームワークにおけるFCNの収束を保証する。さらに、FCNアーキテクチャの最適化を図るため、スペクトルアテンションに基づくエンコーダと軽量なデコーダを備えた、完全なエンドツーエンドネットワークであるFreeNetを提案する。これにより、グローバル空間情報の効果的な活用が図られ、分類性能が向上する。また、エンコーダの空間的詳細とデコーダの意味的特徴を融合するため、ラテラル接続モジュールを設計した。3つの公開ベンチマークデータセットを用いた実験結果から、FPGAフレームワークは従来のパッチベースフレームワークと比較して、HSI分類において速度と精度の両面で優れた性能を示した。コードは以下のURLにて公開されている:https://github.com/Z-Zheng/FreeNet。