2ヶ月前
BLIP-2: 冷凍画像エンコーダと大規模言語モデルを用いた言語-画像事前学習のブートストラッピング
Li, Junnan ; Li, Dongxu ; Savarese, Silvio ; Hoi, Steven

要約
視覚言語の事前学習のコストは、大規模モデルのエンドツーエンドでの学習によりますます高額となっています。本論文では、BLIP-2という汎用的かつ効率的な事前学習戦略を提案します。この戦略は、既存の冷凍済み事前学習画像エンコーダと冷凍済み大規模言語モデルから視覚言語の事前学習をブートストラップします。BLIP-2は軽量なクエリ変換器(Querying Transformer)を使用してモダリティ間のギャップを埋め、このクエリ変換器は2段階で事前学習されます。第1段階では、冷凍済み画像エンコーダから視覚言語表現学習をブートストラップします。第2段階では、冷凍済み言語モデルから視覚対応の言語生成学習をブートストラップします。BLIP-2は訓練可能なパラメータ数が既存手法よりも大幅に少ないにもかかわらず、さまざまな視覚言語タスクにおいて最先端の性能を達成しています。例えば、当モデルは訓練可能なパラメータ数が54倍少ないにもかかわらず、ゼロショットVQAv2においてFlamingo80Bを8.7%上回る性能を示しています。また、当モデルが自然言語指示に従うゼロショット画像対応テキスト生成能力を持つことを実証しています。