8日前

DAFormer：ドメイン適応型セマンティックセグメンテーションのためのネットワークアーキテクチャおよびトレーニング戦略の改善

Lukas Hoyer, Dengxin Dai, Luc Van Gool

要約

現実世界の画像に対してピクセル単位のラベルを付与するSemantic Segmentationのタスクは費用がかかるため、代わりに入手が容易な合成データを用いてモデルを学習し、実画像に対してそのラベルを必要とせずに適応させる手法が有効である。このようなプロセスは、教師なしドメイン適応（Unsupervised Domain Adaptation: UDA）として研究されている。近年、多数の新しい適応戦略が提案されているものの、それらの多くは古くなったネットワークアーキテクチャに基づいている。近年のネットワークアーキテクチャの影響が体系的に検証されていないことから、本研究ではまずUDAにおけるさまざまなネットワークアーキテクチャのベンチマークを行い、TransformerアーキテクチャがUDAのセマンティックセグメンテーションにおいて新たな可能性を秘めていることを明らかにした。この知見を基に、新たなUDA手法DAFormerを提案する。DAFormerのネットワークアーキテクチャは、Transformerエンコーダとマルチレベルのコンテキスト感知特徴融合デコーダから構成されている。訓練の安定化およびソースドメインへの過学習を回避するために、以下の3つのシンプルだが重要な訓練戦略を導入している。（1）ソースドメインにおけるレアクラスサンプリングにより、自己学習における共通クラスへの確認バイアスを軽減し、偽ラベルの品質を向上させる。（2）Thingクラスに対するImageNet特徴距離を用いることで、ImageNet事前学習からの特徴転移を促進し、（3）学習率ウォームアップを導入することで、よりスムーズな学習を実現する。DAFormerはUDA分野における大きな進展を示しており、GTA-to-Cityscapesにおいては既存の最良手法より10.8 mIoU向上、Synthia-to-Cityscapesでは5.4 mIoU向上を達成し、電車、バス、トラックなど特に難しいクラスの学習も良好に行える。実装コードは以下のGitHubリポジトリで公開されている：https://github.com/lhoyer/DAFormer。