2ヶ月前

ZeroDiff: ゼロショット学習における視覚-意味相関の固定化

Ye, Zihan ; Gowda, Shreyank N. ; Huang, Xiaowei ; Xu, Haotian ; Jin, Yaochu ; Huang, Kaizhu ; Jin, Xiaobo
ZeroDiff: ゼロショット学習における視覚-意味相関の固定化
要約

ゼロショットラーニング(ZSL)は、分類器が未見のクラスを識別できるようにすることを目指しています。これは通常、既知のクラスから学習した視覚-意味相関に基づいて、未見のクラスの視覚特徴を生成することで達成されます。しかし、現在の多くの生成手法は、既知のクラスから十分な数のサンプルを得ることに大きく依存しています。当研究では、既知クラスのサンプルが不足している場合、多くの生成ZSL技術において性能が著しく低下することを明らかにしました。この低下は主に偽の視覚-意味相関によるものであると論じ、定量的に評価し、実証しました。この問題に対処するために、我々はゼロディフ(ZeroDiff)という革新的な生成フレームワークを導入します。ゼロディフは拡散メカニズムと対照表現を取り入れて視覚-意味相関を強化します。ゼロディフには3つの主要な構成要素があります:(1) 拡散増強(Diffusion augmentation),これは限られたデータを自然にノイズデータセットへと変換し、生成モデルの過学習を軽減します;(2) 監督対照(Supervised-contrastive, SC)ベースの表現,これは各限られたサンプルを動的に特徴づけ、視覚特徴生成を支援します;(3) ワッサースタイン距離に基づく相互学習アプローチを用いた複数の特徴判別器,これは生成された特徴を様々な観点から評価します。これらの観点には事前に定義された意味論的特性、SCベースの表現、および拡散過程が含まれます。3つの一般的なZSLベンチマークにおける広範な実験により、ゼロディフが既存のZSL手法に対して大幅な改善を達成するだけでなく、訓練データが少ない場合でも堅牢な性能を維持することが示されました。当研究グループのコードは https://github.com/FouriYe/ZeroDiff_ICLR25 で公開されています。

ZeroDiff: ゼロショット学習における視覚-意味相関の固定化 | 最新論文 | HyperAI超神経