概要

大規模言語モデル（LLMs）は、言語中心の多様な応用において優れた汎用性を実証している。さらにLLMsの能力を多様なモダリティ入力に対応させるため、マルチモーダル大規模言語モデル（MLLMs）への関心が高まっている。本研究では、LLMsが画像・言語関連タスク、特に画像キャプション生成、視覚的質問応答（VQA）、視覚的グランドイング（visual grounding）などに効果的に対応できるようにする手法を検討した。そのため、軽量なアライメント事前学習から始め、中程度の重みを持つマルチタスクハイブリッド学習を経て、最終的にLLMの微調整により指示追従能力を向上させる三段階の学習スキームを実装した。訓練過程においてGPUメモリの要件は段階的に増加するが、視覚的埋め込みの数を効率的に制御しつつ、その位置情報（positional information）を保持するため、シンプルな視覚アダプタモジュール「pool-adapter」を提案する。実験の結果、pool-adapterを用いて視覚的埋め込みの位置情報を維持することは、視覚的グランドイングなどのタスクにおいて特に有効であることが明らかになった。本研究で提案する手法を「InfMLLM」と命名し、複数のベンチマークデータセット上で広範な評価を行った。その結果、InfMLLMは既存の最先端（SOTA）性能を達成するか、最近のMLLMと同等の性能を示すことが確認された。コードおよびモデルは、以下のURLにてオープンソースとして公開される予定である：\url{https://github.com/mightyzau/InfMLLM}。

ソースPDF