2ヶ月前
BLIP: 言語-画像事前学習のブートストラッピングによる統合的な視覚-言語理解と生成
Li, Junnan ; Li, Dongxu ; Xiong, Caiming ; Hoi, Steven

要約
ビジョン言語事前学習(VLP)は、多くのビジョン言語タスクの性能を向上させました。しかし、既存のほとんどの事前学習モデルは、理解に基づくタスクか生成に基づくタスクのいずれかにのみ優れている傾向があります。さらに、性能向上は主にウェブから収集されたノイジーな画像-テキストペアを使用してデータセットを拡大することで達成されており、これは最適でない監督情報源です。本論文では、BLIPという新しいVLPフレームワークを提案します。このフレームワークは、ビジョン言語理解と生成タスクの両方に柔軟に対応できます。BLIPは、キャプション生成とフィルタリングを通じてノイジーなウェブデータを効果的に活用します。具体的には、キャプション生成器が合成キャプションを生成し、フィルターがノイジーなキャプションを取り除きます。これにより、画像-テキスト検索(平均Recall@1で+2.7%)、画像キャプション作成(CIDErで+2.8%)、およびVQA(VQAスコアで+1.6%)などの幅広いビジョン言語タスクにおいて最先端の結果を達成しました。また、BLIPはゼロショット設定でビデオ-言語タスクに直接転移する際も強い汎化能力を示しています。コード、モデル、およびデータセットは https://github.com/salesforce/BLIP で公開されています。