EUDA:自己教師付き視覚Transformerを用いた効率的な非教師ありドメイン適応

教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)は、学習データ(ソースドメイン)とテストデータ(ターゲットドメイン)の分布が異なるというドメインシフト問題を軽減することを目的としている。この問題に対処するため、多数のモデルが提案されてきたが、近年、視覚変換器(Vision Transformers: ViTs)が有望な成果を示している。しかし、ViTsは構造が複雑で学習可能なパラメータ数が多く、実用的な応用における展開を制限している。これにより、学習可能なパラメータ数を削減しつつ、特定のニーズに応じてモデルの複雑さを調整可能でありながら、競争力のある性能を発揮できる効率的なモデルの開発が強く求められている。本稿では、このような課題を解決するために、効率的な教師なしドメイン適応(Efficient Unsupervised Domain Adaptation: EUDA)フレームワークを提案する。EUDAは、自己教師付きのViTであるDINOv2を特徴抽出器として用い、その後に簡略化された全結合層から構成されるボトルネックを配置し、特徴の精緻化を通じてドメイン適応性能を向上させる。さらに、交差エントロピー(CE)と最大平均差分(MMD)の損失を統合した相乗的ドメイン整合損失(Synergistic Domain Alignment Loss: SDAL)を導入することで、ソースドメインにおける分類誤差を最小化しつつ、ソースドメインとターゲットドメインの分布を適切に整合させるバランスの取れた適応を実現する。実験結果から、EUDAは他の最先端手法と同等のドメイン適応性能を達成しつつ、学習可能なパラメータ数を42%~99.7%も削減できることを示した。これにより、リソース制約環境下でのモデル学習が可能であることが示された。本モデルのコードは以下のURLから公開されている:https://github.com/A-Abedi/EUDA。