MaskCD:マスク分類に基づくリモートセンシング変化検出ネットワーク

リモートセンシング(RS)画像からの変化検出(Change Detection, CD)において、深層学習を用いたアプローチは広く研究されている。一般的に、このタスクは各ピクセルを「変化あり」または「変化なし」と分類するピクセル単位のラベル付け問題として扱われる。エンコーダ・デコーダ構造に基づくピクセル単位の分類ネットワークは優位性を示しているものの、さまざまなシーンにおいて境界の曖昧さや物体の不完全な輪郭抽出といった課題を抱えている。特に高解像度のRS画像では、単一のピクセルではなく、部分的または完全に変化した物体に注目することがより重要である。そこで本研究では、変化検出のアプローチをマスク予測と分類の観点から再検討し、入力画像ペアから分類されたマスクを適応的に生成することで変化領域を検出する「MaskCD」を提案する。具体的には、変形可能マルチヘッド自己注意機構(Deformable Multihead Self-Attention, DeformMHSA)を活用し、エンコーデッド特徴から空間的・時系列的関係を捉えることで、マルチスケールの変化感知表現を学習するクロスレベル変化表現受容体(Cross-Level Change Representation Perceiver, CLCRP)を導入する。その後、マスク注意機構(masked attention)と自己注意機構(self-attention)を組み合わせた、マスク注意ベースの検出変換器(Masked-Attention-based Detection Transformers, MA-DETR)デコーダを設計し、変化物体の正確な位置特定と識別を実現する。このデコーダは、ピクセル単位の表現を学習可能なマスク候補に変換し、これらの候補から最終的な予測を生成することで、望ましい変化物体を再構築する。5つのベンチマークデータセットにおける実験結果から、本手法が他の最先端モデルを上回る性能を示した。コードおよび事前学習済みモデルはオンラインで公開されている(https://github.com/EricYu97/MaskCD)。