11日前

意味認識型メッセージブロードキャストによる効率的な教師なしドメイン適応

Xin Li, Cuiling Lan, Guoqiang Wei, Zhibo Chen
意味認識型メッセージブロードキャストによる効率的な教師なしドメイン適応
要約

視覚変換器(Vision Transformer)は、多様な視覚タスクにおいて大きな潜在能力を示している。しかし、テスト時に分布シフト(分布外データ)が発生する場合、一般化能力の低下という課題に直面する。この問題を緩和するために、本研究では無監督ドメイン適応(UDA)におけるより情報量豊かで柔軟な特徴整合を実現するための新規手法、意味論を意識したメッセージブロードキャスト(Semantic-aware Message Broadcasting, SAMB)を提案する。特に、視覚変換器におけるアテンションモジュールに着目し、1つのグローバルクラストークンを用いたアテンション空間には十分な柔軟性が欠けていることに着目した。この空間では、すべての画像トークンに対して同一の方法で情報交換が行われるが、異なる領域に内在する豊かな意味論を無視してしまう。本論文では、意味論に応じた適応的メッセージブロードキャストを可能にすることで、アライメント特徴の豊かさを向上させることを目的とする。具体的には、すべての画像トークンからグローバル情報を集約するノードとして学習可能なグループトークンの集合を導入し、異なるグループトークンが異なる意味論的領域に適応的にメッセージブロードキャストを集中させることを促進する。これにより、グループトークンはより情報量豊かで多様な特徴を学習し、効果的なドメインアライメントを実現する。さらに、 adversarial-based feature alignment(ADA)とpseudo-label based self-training(PST)のUDAにおける効果を体系的に検証した結果、ADAとPSTを協調させる単純な二段階訓練戦略が、視覚変換器の適応能力をさらに向上させることを明らかにした。DomainNet、OfficeHome、VisDA-2017における広範な実験により、本手法の有効性が実証された。

意味認識型メッセージブロードキャストによる効率的な教師なしドメイン適応 | 最新論文 | HyperAI超神経