2ヶ月前
PromptStyler: プロンプト駆動のスタイル生成によるソースフリーのドメイン汎化
Junhyeong Cho; Gilhyun Nam; Sungyeon Kim; Hunmin Yang; Suha Kwak

要約
共同のビジョン言語空間において、「犬の写真」というテキスト特徴は、犬の写真から抽出される関連する画像特徴を効果的に表現することができます。また、最近の研究では、この共同空間におけるクロスモーダル転移可能性の現象が示されています。これらの観察結果に基づいて、当研究ではPromptStylerを提案します。これは、プロンプトを通じて多様なスタイルを合成することで、共同空間内の様々な分布シフトを模倣し、ソースフリーのドメイン汎化に対処する方法です。提案された手法は、疑似単語Sの学習可能なスタイルワードベクトルを使用して、「a S style of a [クラス]」(Sスタイルの[クラス])というような多様なスタイル特徴を生成することを学びます。学習したスタイルがコンテンツ情報を歪めないよう、「a S style of a [クラス]」(S*スタイルの[クラス])から得られるスタイルコンテンツ特徴が、「[クラス]」から得られる対応するコンテンツ特徴に近接するように強制します。スタイルワードベクトルを学習した後、合成されたスタイルコンテンツ特徴を使用して線形分類器を訓練します。PromptStylerは、PACS, VLCS, OfficeHome, DomainNetで最先端の性能を達成しています。訓練には画像を使用せずとも、このような成果を得ています。