8日前

パッチミックスTransformerによる教師なしドメイン適応:ゲーム理論的視点

Jinjing Zhu, Haotian Bai, Lin Wang
パッチミックスTransformerによる教師なしドメイン適応:ゲーム理論的視点
要約

最近、視覚変換器(ViT)を活用して困難な非教師ありドメイン適応(UDA)タスクに取り組む試みがなされている。これらの手法は一般的に、ViTにおけるクロスアテンションを用いてターゲットサンプルのドメインを直接一致させる。しかし、クロスアテンションの性能はターゲットサンプルに対する擬似ラベルの品質に大きく依存するため、ドメインギャップが大きくなるとその有効性が低下する。本研究では、ゲーム理論の視点からこの問題を解決するため、PMTransと呼ばれる新規モデルを提案する。このモデルは、ソースドメインとターゲットドメインの間に中間ドメインを構築することで、両者を橋渡しする。具体的には、ゲーム理論に基づいたモデルを用いて、両ドメインからパッチをサンプリングする方法を学習する、新しいViTベースのモジュールであるPatchMixを提案する。この方法により、ソースドメインとターゲットドメインのパッチを混合し、交差エントロピー(CE)を最大化する学習を行う一方で、特徴空間およびラベル空間における2つの半教師付きミックスアップ損失を利用してCEを最小化する。その結果、UDAのプロセスを、特徴抽出器、分類器、PatchMixという3つのプレイヤーからなるミニマックスCEゲームとして捉え、ナッシュ均衡を探索するという新しい視点を得た。さらに、ViTから得られるアテンションマップを活用し、各パッチの重要度に基づいてラベルを再重み付けすることで、よりドメイン判別性の高い特徴表現を獲得することが可能となる。本研究では4つのベンチマークデータセット上で広範な実験を実施した結果、PMTransはViTベースおよびCNNベースの最先端(SoTA)手法をそれぞれOffice-Homeで+3.6%、Office-31で+1.4%、DomainNetで+17.7%の性能向上で上回った。