9日前
MiniGPT-4:高度なLarge Language Modelsを用いた視覚言語理解の向上
Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

要約
最近のGPT-4は、手書きテキストから直接ウェブサイトを生成したり、画像内のユーモラスな要素を識別したりするなど、驚異的なマルチモーダル能力を示している。これらの機能は、従来の視覚言語モデルではほとんど観察されなかったものである。しかし、GPT-4の背後にある技術的詳細については、依然として非公開のままである。我々は、GPT-4の強化されたマルチモーダル生成能力が、高度な大規模言語モデル(LLM)の活用に起因していると考えている。この現象を検証するため、我々は、固定化された視覚エンコーダーと、固定化された高度なLLMであるVicunaを、1層の投影層を用いて統合する「MiniGPT-4」を提案する。本研究では、初めて、高度な大規模言語モデルと視覚特徴を適切に統合することにより、GPT-4が示す多様な高度なマルチモーダル能力——たとえば、詳細な画像説明の生成や、手描きのスケッチからウェブサイトの作成——が実現可能であることを明らかにした。さらに、MiniGPT-4には、与えられた画像をもとに物語や詩を作成する能力、食事の写真に基づいて調理法を教える能力など、新たなEmergent Capability(出現的機能)も観察された。実験において、短い画像キャプションペアで学習したモデルは、不自然な言語出力(例:繰り返しや断片化)を引き起こすことがわかった。この問題に対処するため、第2段階では詳細な画像記述データセットを構築し、モデルのファインチューニングを行った。その結果、モデルの生成の信頼性と全体的な利用可能性が著しく向上した。本研究のコード、事前学習済みモデル、および収集したデータセットは、https://minigpt-4.github.io/ にて公開されている。