HAPNet: ハイブリッド、非対称、および進行的な異種特徴量融合を用いた優れたRGB-熱画像シーン解析の実現

データ融合ネットワークは、RGB-熱画像のシーン解析において著しい可能性を示しています。しかし、既存の研究の多くは、異なる種類の特徴量抽出と融合のために対称的な二重エンコーダーに依存しており、RGBと熱画像モダリティ間の固有の違いに十分な注意を払っていません。最近、自己監督学習によって大量のラベルなしデータで訓練されたビジョン基礎モデル(Vision Foundation Models: VFMs)が、情報量豊富で汎用的な特徴量を抽出する能力を持っていることが証明されています。しかし、この潜在力はまだ十分に活用されていません。本研究では、この新しい研究分野への一歩として、RGB-熱画像のシーン解析においてVFM特徴量を完全に活用するための実現可能な戦略を探ります。具体的には、RGBと熱画像モダリティの独自性についてより深く掘り下げることで、VFMと畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)を組み込んだハイブリッドかつ非対称的なエンコーダーを設計しました。この設計により、補完的な異種特徴量をより効果的に抽出し、その後双方向的に段階的に融合することが可能となります。さらに、補助タスクを導入することで、融合された特徴量の局所的意味内容をさらに豊かにし、RGB-熱画像シーン解析全体の性能向上に寄与します。提案したHAPNetはこれらのすべてのコンポーネントを備えており、他の最先端のRGB-熱画像シーン解析ネットワークよりも優れた性能を示し、3つの広く使用されている公開RGB-熱画像シーン解析データセットでトップクラスの結果を得ています。私たちはこの新しいパラダイムが将来のデータ融合シーン解析手法における新たな機会を開いたと考えています。