要約
リモートセンシング変化検出(RSCD)は、二時刻画像から地表面の変化を同定することを目的とする技術であり、環境保護や災害モニタリングなど多岐にわたる応用において重要である。過去10年間、人工知能の波に伴い、深層学習に基づく変化検出手法が多数登場し、顕著な進展を遂げてきた。しかし、これらの手法は視覚的表現学習に重点を置く一方で、マルチモーダルデータの潜在的価値を十分に活用していない。近年、基礎的な視覚言語モデル(CLIP)がマルチモーダルAIの新しいパラダイムを提示し、下流タスクにおいて優れた性能を示している。このようなトレンドを踏まえ、本研究では、リモートセンシング変化検出(RSCD)に特化した新しいフレームワーク「ChangeCLIP」を提案する。具体的には、画像とテキストのペアから得られる堅牢な意味情報を利用し、オリジナルのCLIPを再構成して二時刻特徴を抽出するとともに、それらの間の詳細な意味的変化を捉えるための新規な差分特徴補正モジュールを提案する。さらに、画像-テキスト符号化の結果と復号段階の視覚特徴を統合することで、視覚的意味情報を強化する「視覚言語駆動型デコーダ」を構築した。提案手法ChangeCLIPは、5つの代表的な変化検出データセット(LEVIR-CD: 85.20%、LEVIR-CD+ : 75.63%、WHUCD: 90.15%、CDD: 95.87%、SYSU-CD: 71.41%)において、最先端のIoU性能を達成した。ChangeCLIPのコードおよび事前学習済みモデルは、https://github.com/dyzy41/ChangeCLIP にて公開される予定である。