ドメイン適応性および汎化性を備えたネットワークアーキテクチャと訓練戦略によるセマンティック画像セグメンテーション

教師なしドメイン適応(UDA)およびドメイン一般化(DG)は、ソースドメインで訓練された機械学習モデルがラベルなし、あるいは未観測のターゲットドメインにおいても良好な性能を発揮できるようにする手法である。これまでのUDA&DGにおけるセマンティックセグメンテーション手法は、多くが古くなったネットワークアーキテクチャに依拠しているため、本研究ではより最近のアーキテクチャをベンチマークし、Transformerの潜在的価値を明らかにした上で、UDA&DGに特化したDAFormerネットワークを設計した。このDAFormerは、ソースドメインへの過剰適合を回避するための3つの訓練戦略を採用している。まず(1)レアクラスサンプリングにより、ソースドメインにおける頻出クラスへのバイアスを軽減し、(2)ThingクラスにおけるImageNet特徴距離と(3)学習率ウォームアップによって、ImageNet事前学習から得られた特徴の転移を促進する。また、UDA&DGは通常、GPUメモリを大量に消費するため、従来の手法では画像のリサイズまたはクロッピングが行われてきた。しかし、低解像度の予測では細部情報の保持が困難であり、クロップされた画像で訓練されたモデルは、長距離かつドメインに頑健な文脈情報を捉えきれないという課題があった。そこで本研究では、細かいセグメンテーションの詳細を保持するための小規模高解像度クロップと、長距離文脈依存性を捉えるための大規模低解像度クロップの長所を統合する、多解像度フレームワークHRDAを提案する。このHRDAは、学習可能なスケールアテンションにより、これらのクロップの効果を最適に組み合わせる。DAFormerとHRDAの組み合わせにより、5つの異なるベンチマークにおいて、従来の最先端技術を10 mIoU以上上回る性能を達成した。実装コードはGitHubにて公開されている(https://github.com/lhoyer/HRDA)。