16日前
視覚言語モデルにおける言語事前知識の役割の再検討
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan

要約
視覚言語モデル(VLM)は、微調整を一切行わずにゼロショットで多様な視覚理解タスクに適用可能な点で、大きな影響力を持つ。本研究では、画像を入力として次単語生成を学習する「生成型VLM」に注目し、8つの代表的な視覚言語ベンチマークにおける画像-テキスト検索という代表的なタスクにおけるゼロショット性能を調査した。まず、画像を入力とした際に特定のテキスト文字列を生成する際の一致スコアを単に計算することで、生成型VLMを識別型タスク(例:画像-テキスト検索)に再利用可能であることを発見した。この確率的スコアを「視覚的生成前処理スコア(Visual Generative Pre-Training Score; VisualGPTScore)」と命名した。VisualGPTScoreは一部の検索ベンチマークではほぼ完璧な正確度を達成するが、他のベンチマークでは低精度となる。この挙動を確率論的視点から分析した結果、一部のベンチマークが敵対的だが自然でない言語分布を意図せず捉えていることが明らかになった。実際、画像情報を一切無視する「盲目的な」言語モデルでさえ、時として既存のすべての手法を上回る性能を示すことが実証された。これは、何年も前に視覚質問応答(VQA)コミュニティが直面した類似の課題と類似している。本研究では、モデルの再学習や微調整を必要とせずに、テスト時に生成型VLMの言語バイアスの程度を制御する確率的後処理手法を導出した。さらに、適切にバイアス補正されたVisualGPTScoreが、視覚言語理解における強力なゼロショットベースラインとなり得ることを示した。実際、多くの場合、最先端の正確度を達成することが可能である。