CALIP: パラメータフリーの注意機構を用いたCLIPのゼロショット強化

コントラスティブ言語-画像事前学習(CLIP)は、優れた転移性を持つ視覚表現を学習し、ゼロショット分類において有望な精度を達成することが示されています。その下流性能をさらに向上させるために、既存の研究ではCLIPに追加の学習可能なモジュールを提案し、少量の訓練セットで微調整しています。しかし、これにより発生する追加の訓練コストとデータ要件は、モデルの展開や知識転送の効率を著しく阻害しています。本論文では、パラメータフリーかつ学習フリーのアテンションモジュールを使用してCLIPのゼロショット性能を向上させるための「無料ランチ」強化手法であるCALIP(Contrastive Attention for Language-Image Pre-training)を導入します。具体的には、視覚表現と言語表現が相互作用し、クロスモーダルな情報特徴を探求するようにガイドします。事前学習によって2つのモーダリティ間の埋め込み距離が大幅に縮小されているため、アテンション内のすべての学習可能なパラメータを廃棄し、多様な特徴量を双方向に更新することで、全体的なプロセスがパラメータフリーかつ学習フリーとなるようにします。この方法により、画像はテキスト認識信号と融合され、テキスト表現は視覚ガイドとなり、より適応的なゼロショットアライメントが可能になります。我々はCALIPを2D画像と3Dポイントクラウドの少ショット分類に向けた14つのデータセットで評価しました。結果として、CLIPに対して一貫したゼロショット性能向上が確認されました。さらに、CALIPのアテンションモジュール内に少量の線形層を挿入し、少ショット設定での堅牢性を検証しました。これは既存手法と比較しても最良の性能を達成しており、広範な実験を通じて当手法がCLIPの効率的な強化に優れていることが示されています。