11日前

プロンプトベースの分布整合による教師なしドメイン適応

Shuanghao Bai, Min Zhang, Wanqi Zhou, Siteng Huang, Zhirong Luan, Donglin Wang, Badong Chen
プロンプトベースの分布整合による教師なしドメイン適応
要約

近年、大規模な事前学習済み視覚言語モデル(VLMs)は、多様な下流タスクにおいて前例のない成功を収めているが、現実世界における非教師付きドメイン適応(UDA)問題は依然として十分に探求されていない。本論文では、まず実験的に、非教師付きで学習されたVLMが、ソースドメインとターゲットドメイン間の分布差を著しく低減できることを示す。これにより、UDAの性能が向上することが確認された。しかし、このようなモデルを下流のUDAタスクに直接適用する際の主要な課題として、プロンプト設計(prompt engineering)が挙げられる。これは、ソースドメインとターゲットドメインのドメイン知識を整合させる必要があるためであり、UDAの性能は優れたドメイン不変表現に大きく依存するためである。そこで、本研究ではドメイン知識をプロンプト学習に組み込むための、プロンプトベースの分布整合(Prompt-based Distribution Alignment, PDA)手法を提案する。具体的には、ベースブランチとアライメントブランチの二本のブランチからなるプロンプトチューニングパラダイムを採用する。ベースブランチは、クラス固有の表現をプロンプトに統合することに注力し、異なるクラス間の識別性を確保する。一方、アライメントブランチでは、ソースドメインおよびターゲットドメインそれぞれに対して特徴バンクを構築し、画像誘導型特徴チューニング(Image-guided Feature Tuning, IFT)を提案する。IFTにより、入力が特徴バンクに注目するよう設計され、自己強化された特徴とクロスドメイン特徴がモデルに効果的に統合される。このようにして、二つのブランチが相互に促進し合い、VLMのUDAに対する適応能力を強化する。本研究では、3つのベンチマーク上で広範な実験を実施し、提案手法PDAが最先端の性能を達成することを示した。実装コードは、https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment にて公開されている。

プロンプトベースの分布整合による教師なしドメイン適応 | 最新論文 | HyperAI超神経