11日前

VILA:視覚言語モデルのための事前学習に関する研究

Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
VILA:視覚言語モデルのための事前学習に関する研究
要約

視覚言語モデル(VLM)は、近年の大規模言語モデル(LLM)の成功に伴い急速に進展している。視覚入力を用いたLLMの拡張を目的とした視覚指示チューニング(visual instruction tuning)に関する研究が活発化しているが、両モダリティ(視覚と言語)を統合的にモデリングする能力を学習するという、視覚言語事前学習プロセスに関する深い理解はまだ不足している。本研究では、段階的かつ制御可能な比較を通じてLLMをVLMへと拡張する手法を用い、VLM事前学習における設計選択の検討を行った。以下の3つの主要な発見を得た:(1)事前学習中にLLMを固定(freeze)すると、良好なゼロショット性能が得られるが、文脈内学習(in-context learning)能力に欠ける。この能力を得るためにはLLMの unfreezing(固定解除)が必要である;(2)画像とテキストの対を交互に配置したデータ(インタリーブドデータ)は有益であるが、単独の画像-テキストペアだけでは最適ではない;(3)指示微調整(instruction fine-tuning)段階で、テキストのみの指示データを再構成(re-blend)して画像-テキストデータに変換することで、テキストのみのタスク性能の低下を是正するだけでなく、VLMタスクの精度も向上する。これらの知見をもとに改良された事前学習手法を採用し、VILAという視覚言語モデルファミリーを構築した。このモデルは、追加の装飾要素(bells and whistles)を一切用いずに、主要ベンチマークにおいて最新のモデル(例:LLaVA-1.5)を一貫して上回る性能を発揮した。多モーダル事前学習により、VILAの特徴的な性質も明らかになった。具体的には、複数画像の推論能力、強化された文脈内学習能力、およびより優れた世界知識の獲得が確認された。

VILA:視覚言語モデルのための事前学習に関する研究 | 最新論文 | HyperAI超神経