
シーン変化検出のための新しい手法を提案します。この手法は、視覚基盤モデルであるDINOv2の堅牢な特徴抽出能力を活用し、フル画像クロスアテンションを統合することで、照明条件の違い、季節変動、視点の違いなどの主要な課題に対処します。画像ペア間での変化検出タスクにおいて対応関係と非対応関係を効果的に学習するために、a) バックボーンを「固定」して稠密な基盤特徴の汎用性を維持することと、b) 「フル画像」クロスアテンションを使用して画像ペア間の視点変動に更好地対処することを提案します。我々は、VL-CMU-CDおよびPSCDという2つのベンチマークデータセットとそれらの視点変動版で我々の手法を評価しました。実験結果はF1スコアにおける大幅な改善を示しており、特に画像ペア間での幾何学的な変化が含まれるシナリオにおいて顕著です。これらの結果は、既存の最先端手法よりも優れた汎化能力を持つことを示しており、光度学的および幾何学的な変動に対する堅牢性だけでなく、新しい環境に適応するための微調整後の全体的な汎化能力も高いことを示しています。詳細な消去法研究により、我々のアーキテクチャ内の各コンポーネントの貢献がさらに確認されています。ソースコードは以下のURLから入手可能です: https://github.com/ChadLin9596/Robust-Scene-Change-Detection。注:- 「固定」(freeze):バックボーンネットワークのパラメータ更新を停止すること。- 「フル画像」(full-image):全体的な画像情報を考慮に入れる方法。- 「消去法研究」(ablation studies):特定の要素を取り除いたり交換したりすることでその要素がシステムに与える影響を分析する研究方法。