2ヶ月前

SemiCD-VL: 視覚言語モデルのガイダンスがより良い半教師付き変化検出器を実現する

Kaiyu Li; Xiangyong Cao; Yupeng Deng; Jiayi Song; Junmin Liu; Deyu Meng; Zhi Wang
SemiCD-VL: 視覚言語モデルのガイダンスがより良い半教師付き変化検出器を実現する
要約

変化検出(Change Detection: CD)は、画像間で意味的な変化を示すピクセルを特定することを目指しています。しかし、大量のピクセルレベルの画像をアノテーションすることは労力がかかるだけでなく費用も高く、特に多時相画像の場合には、人間の専門家によるピクセル単位での比較が必要となるためさらに困難です。視覚言語モデル(Visual Language Models: VLMs)がゼロショット学習やオープンボキャブラリーなど、プロンプトベースの推論において優れた性能を発揮していることを考慮すると、ラベル付きデータが限られている状況下でもVLMsを活用してより良いCDを行うことが有望です。本論文では、VLMガイダンスに基づく半教師ありCD手法であるSemiCD-VLを提案します。SemiCD-VLの洞察は、VLMsを使用して無料の変化ラベルを合成し、ラベルなしデータに対して追加の監督信号を提供することにあります。ただし、現在のほとんどのVLMsは単一時相画像向けに設計されており、直接的に二時相または多時相画像に適用することはできません。この課題に対応するため、まずVLMに基づく混合変化イベント生成(Change Event Generation: CEG)戦略を提案し、ラベルなしCDデータに対する疑似ラベルを作成します。これらのVLM駆動型疑似ラベルによって提供される追加の監督信号は、一貫性正則化パラダイム(例:FixMatch)からの疑似ラベルと衝突する可能性があるため、異なる信号源を分離するためにデュアルプロジェクションヘッドを提案します。さらに、二つの補助セグメンテーションデコーダーを通じて二時相画像の意味表現を明確に分離し、これらもVLMによってガイダンスを受けます。最後に、モデルが変化表現をより適切に捉えるようにするために、補助ブランチにおける特徴量レベルの一貫性損失によりメトリック対応型監督を導入します。広範な実験結果からSemiCD-VLの優位性が示されています。例えば、5%のラベルを使用した場合でもWHU-CDでFixMatchベースライン比+5.3 IoUおよびLEVIR-CDで+2.4 IoUの改善が見られました。また、当社のCEG戦略は非教師あり手法として最高峰クラスの非教師ありCD手法よりも遥かに優れた性能を達成しています。