2ヶ月前

TTD: テキストタグの自己蒸留によるCLIPにおける画像-テキストアライメントの強化と単一タグバイアスの軽減

Sanghyun Jo; Soohyun Ryu; Sungyub Kim; Eunho Yang; Kyungsu Kim
TTD: テキストタグの自己蒸留によるCLIPにおける画像-テキストアライメントの強化と単一タグバイアスの軽減
要約

現代のCLIPベースのモデルにおいて、我々は重要なバイアスを特定しました。これを単一タグバイアスと呼びます。このバイアスは、画像とテキストの関係において特定の1つのタグ(単語)に過度に焦点を当て、他の関連するタグを無視することによって現れます。これはCLIPのテキスト埋め込みが、画像とテキストの関係において1つの特定のタグを優先するためです。テキストを個々のタグに分解すると、通常1つのタグのみがCLIPの画像埋め込みとの高い関連性を持つ傾向があります。これにより、偏ったタグ関連性が生じます。本論文では、この課題に対処するために新しい2段階ファインチューニング手法であるText-Tag Self-Distillation (TTD) を提案します。TTDはまず、テキストから画像に関連するタグを抽出します。これは最も近いピクセルとの類似性に基づいて行われます。次に、自己蒸留戦略を使用して結合マスクをテキスト由来のマスクと合わせます。この手法により、追加の監督なしで画像-テキストペアのみを使用してCLIPベースのモデルにおける公正な画像-テキスト対応を確保できます。我々の技術は、マルチタグ分類およびセグメンテーションタスクにおいてモデル非依存的な改善を示し、外部リソースに依存する競合手法を超える性能を発揮します。コードは https://github.com/shjo-april/TTD で公開されています。