CoDA:深刻度認識型視覚プロンプトチューニングを用いた指示付きドメイン適応チェーン

教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ラベル付きのソースドメインからラベルなしのターゲットドメインへモデルを適応させることを目的としている。特に悪条件シーンへの適応において、従来のUDA手法は指示が不足しているため、すべての悪条件シーン内における差異を無視してしまうため、性能が十分に発揮されない。これを解決するために、本研究ではシーンレベルおよび画像レベルで差異を識別・注目・学習するようモデルに指示する手法であるCoDA(Chain-of-Domain Adaptation)を提案する。CoDAは、Chain-of-Domain(CoD)戦略と、重度に敏感な視覚的プロンプトチューニング(Severity-Aware Visual Prompt Tuning, SAVPT)機構から構成されている。CoDはシーンレベルの指示を重視し、すべての悪条件シーンを「容易なシーン」と「困難なシーン」に分類する。これにより、モデルは容易なシーンの画像を用いてソースドメインから容易なドメインへ適応し、その後、困難なシーンの画像を用いて困難なドメインへ適応するという段階的なアプローチを可能にし、全体的な適応の堅固な基盤を構築する。この基盤の上に、より詳細な画像レベルの指示を導入するため、SAVPTを採用する。SAVPTは、新たな指標である「重度(Severity)」を導入し、すべての悪条件シーン画像を「低重度」と「高重度」に分類する。この重度の情報が視覚的プロンプトおよびアダプタを制御し、モデルにシーン固有の特徴ではなく、統一された重度特徴に注目するよう指示する。このアプローチはモデルアーキテクチャの複雑さを増すことなく、性能向上を実現する。CoDAは、広く用いられるベンチマークにおいて、すべての悪条件シーンにおいてSOTA(最先端)の性能を達成した。特に、Foggy DrivingおよびFoggy Zurichのベンチマークにおいて、従来手法と比較してmIoUでそれぞれ4.6%および10.3%の向上を達成した。本研究のコードは、https://github.com/Cuzyoung/CoDA にて公開されている。