2ヶ月前

MIC: マスク付き画像一貫性による文脈強化ドメイン適応

Lukas Hoyer; Dengxin Dai; Haoran Wang; Luc Van Gool
MIC: マスク付き画像一貫性による文脈強化ドメイン適応
要約

非監督ドメイン適応(UDA)では、ソースデータ(例:シミュレーションデータ)で学習したモデルを、ターゲットアノテーションにアクセスせずにターゲットデータ(例:実世界データ)に適応させます。これまでの大部分の UDA メソッドは、ターゲットドメインにおいて視覚的に類似したクラスに対処するのに苦労していました。なぜなら、これらのクラス間の微妙な外観の違いを学習するための真値が利用できないからです。この問題を解決するために、我々はマスク画像一貫性(Masked Image Consistency: MIC)モジュールを提案します。MIC は、ターゲットドメインの空間的なコンテキスト関係を追加的な手がかりとして用いて、UDA を強化することを目指しています。MIC は、ランダムなパッチが欠落しているマスクされたターゲット画像の予測と、指数移動平均教師によって完全な画像に基づいて生成される疑似ラベルとの間の一貫性を強制します。一貫性損失を最小限に抑えるために、ネットワークはマスクされた領域の予測をそのコンテキストから推論する方法を学習しなければなりません。その単純かつ普遍的な概念により、MIC は異なる視覚認識タスク(画像分類、セマンティックセグメンテーション、オブジェクト検出など)における様々な UDA メソッドに統合することができます。MIC は合成から実際のものへの変換、昼間から夜間への変換、晴天から悪天候への変換などの UDA タスクにおいて最先端の性能を大幅に向上させています。例えば、GTA-to-Cityscapes および VisDA-2017 の UDA 性能において MIC はそれぞれ 75.9 mIoU と 92.8% の未曽有の結果を達成しており、これは以前の最先端技術に対して +2.1 パーセントポイントと +3.0 パーセントポイントの改善に相当します。実装は https://github.com/lhoyer/MIC で公開されています。