
教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)は、ラベル豊富なソースドメインを活用して、関連するラベルなしのターゲットドメインにおけるタスクを解決することを目的としている。特にソースドメインとターゲットドメインの間に大きなドメインギャップが存在する場合には、この問題は極めて困難である。本論文では、Transformerベースのドメイン適応に適した新たな手法であるSSRT(Safe Self-Refinement for Transformer-based domain adaptation)を提案する。本手法は、以下の2つの観点から性能向上を実現する。第一に、視覚変換器(Vision Transformer)が多様な視覚タスクにおいて優れた成果を上げていることに着目し、SSRTにTransformerアーキテクチャを採用した。実験の結果、シンプルな敵対的適応と組み合わせたVision Transformerは、挑戦的なDomainNetベンチマークにおいて、従来報告された最も優れた畳み込みニューラルネットワーク(CNN)ベースの手法を上回ることを確認した。これは、Vision Transformerが強力な転移可能特徴表現能力を有していることを示している。第二に、大きなドメインギャップを有するドメイン間での知識伝達の効果を高め、モデルの崩壊(model collapse)のリスクを低減するために、安全な自己精錬(Safe Self-Refinement)戦略を提案する。具体的には、ターゲットドメインデータにノイズを加えた場合の予測結果を用いてモデルを精錬する。Vision Transformerのモデル容量が大きいため、特に困難なタスクでは予測結果にノイズが含まれる可能性がある。このため、学習設定を動的に調整できる安全な学習メカニズムを設計した。複数の広く用いられているUDAベンチマーク上で広範な評価を行った結果、SSRTは一貫して最高の性能を達成し、Office-Homeでは85.43%、VisDA-2017では88.76%、DomainNetでは45.2%の精度を実現した。