
要約
教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)は、ラベル付きのソースドメインから学習した知識を活用して、ラベルのないターゲットドメインにおける性能を向上させることを目的としています。従来のUDA手法では畳み込みニューラルネットワーク(Convolutional Neural Networks: CNNs)が主流でしたが、最近の研究では、ビジョントランスフォーマー(Vision Transformers: ViTs)をこのタスクに適用する可能性が示されています。本研究では、ViTのUDAタスクにおける性能を向上させるため、新たな特徴融合転移可能意識型トランスフォーマー(Feature Fusion Transferability Aware Transformer: FFTAT)を提案します。本手法は以下の2つの重要な革新を導入しています。第一に、パッチの転移可能性を評価するためのパッチ識別器を導入し、転移可能行列を生成します。この行列を自己注意機構に統合することで、モデルが転移可能なパッチに注目するよう誘導します。第二に、潜在空間における埋め込みの特徴融合技術を提案し、各埋め込みが他のすべての埋め込みからの情報を統合できるようにすることで、汎化性能を向上させます。これらの2つの要素は相乗効果を発揮し、特徴表現学習の質を向上させます。広く用いられているベンチマークデータセット上での豊富な実験により、本手法がUDA性能を顕著に向上させ、最先端(State-of-the-Art: SOTA)の成果を達成することが確認されました。