2ヶ月前

カスタマイズされた視覚モデルの学習と検索強化型知識

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li

要約

画像とテキストの対比学習モデル（例えばCLIP）は、強力なタスク転移能力を示しています。これらの視覚モデルの高い汎用性と利用可能性は、広範な概念カバーを確保するためのウェブスケールでのデータ収集プロセスに続いて、高コストの事前学習によって達成されています。これに対して、我々はREACT（REtrieval-Augmented CusTomization）というフレームワークを提案します。このフレームワークは、標的ドメイン向けのカスタマイズされた視覚モデルを構築するために、関連するウェブ知識を取得することを目指しています。我々はウェブスケールのデータベースから最も関連性の高い画像-テキストペア（CLIPの事前学習データの約3%）を外部知識として検索し、元の重みを凍結したまま新しいモジュール化されたブロックのみを学習することでモデルをカスタマイズすることを提案します。REACTの有効性は、分類、検索、検出、セグメンテーションなどのタスクにおける包括的な実験を通じて示されており、ゼロショット設定や少ショット設定、フルショット設定も含めています。特にゼロショット分類タスクにおいては、CLIPと比較してImageNetで最大5.4%、ELEVATERベンチマーク（20つのデータセット）で3.7%の改善が見られています。