2ヶ月前
InstructBLIP: 指示調整を用いた汎用的な視覚言語モデルへのアプローチ
Wenliang Dai; Junnan Li; Dongxu Li; Anthony Meng Huat Tiong; Junqi Zhao; Weisheng Wang; Boyang Li; Pascale Fung; Steven Hoi

要約
大規模な事前学習と指示微調整は、広範な能力を持つ汎用言語モデルの作成に成功しています。しかし、視覚入力の追加により豊かな入力分布と多様なタスクが生じるため、汎用的な視覚言語モデルの構築は困難です。視覚言語の事前学習は広く研究されていますが、視覚言語の指示微調整についてはまだ十分に研究されていません。本論文では、事前学習済みのBLIP-2モデルを基に、視覚言語の指示微調整に関する系統的かつ包括的な研究を行いました。26の公開データセットを集め、これらを幅広いタスクと能力をカバーする指示微調整形式に変換しました。さらに、指示に対応したQuery Transformer(クエリトランスフォーマー)を導入し、与えられた指示に特化した情報量豊富な特徴を抽出します。13つのホールドインデータセットで訓練されたInstructBLIPは、すべての13つのホールドアウトデータセットにおいて最先端の一発学習性能を達成し、BLIP-2やより大きなFlamingoモデルよりも大幅に優れた性能を示しました。また、個別のダウンストリームタスクでのファインチューニングでも最先端の性能(例えばScienceQAにおける画像コンテキスト付き質問に対する90.7%の精度)を達成しています。さらに、InstructBLIPが同時期の他のマルチモーダルモデルに対して持つ利点を定性的にも示しています。InstructBLIPモデルはすべてオープンソース化され、https://github.com/salesforce/LAVIS/tree/main/projects/instructblip で公開されています。