
要約
非監督ドメイン適応(UDA)は、ターゲットドメイン(例えば実世界データ)での追加のアノテーションを必要とせずに、ソースドメイン(例えば合成データ)で学習したモデルをターゲットドメインに適応させる技術です。本研究では、特に実世界のピクセル単位のアノテーションが高価であるため、セマンティックセグメンテーション向けのUDAに焦点を当てています。セマンティックセグメンテーションのUDA手法は通常GPUメモリを多く消費するため、これまでの多くの手法は縮小された画像でのみ動作していました。しかし、低解像度の予測では細部が失われやすいという問題があります。高解像度画像のランダムクロップでの学習はこの問題を軽減しますが、長距離のドメイン間ロバストなコンテキスト情報を捉える能力が不足しています。そこで、我々はHRDAと呼ばれる多解像度学習手法を提案します。HRDAは、小さな高解像度クロップによる細部のセグメンテーション詳細の保持と、大きな低解像度クロップによる長距離コンテキスト依存関係の捕捉という両方の利点を学習済みスケール注意機構によって組み合わせつつ、管理可能なGPUメモリ使用量を維持します。HRDAは小さな物体への適応と細部のセグメンテーション詳細の保持を可能にし、GTA-to-Cityscapesでは5.5 mIoU、Synthia-to-Cityscapesでは4.9 mIoUという大幅な性能向上を達成しました。これにより、それぞれ73.8 mIoUと65.8 mIoUという前例ない結果を得ました。本手法の実装は以下のURLから利用可能です: https://github.com/lhoyer/HRDA.