8ヶ月前

概要

マルチモーダル大規模言語モデル（MLLM）は、テキストと画像のモダリティを統合する上で優れた能力を発揮しているが、詳細な視覚的要素を正確に解釈する点においても課題が残っている。視覚検出モデルは、画像の細粒度な情報を認識する点で優れており、この特性を活かしてMLLMの性能を向上させる試みが行われている。その中で有効なアプローチの一つとして、検出情報をテキスト形式で組み込む方法が挙げられ、実践的にシンプルかつ効果的であることが示されている。しかし、多くの研究ではこの手法を訓練なしに適用しているにとどまり、適応的訓練の可能性はほとんど探索されていない。適応的訓練により、MLLMは個別の入力に対する理解を強化するとともに、不要な情報を排除する能力が向上する可能性がある。本研究は、以下の核心的な問いに取り組む：訓練は、MLLMが組み込まれたテキスト形式の検出情報の理解にどのように影響するのか？我々は、代表的な複数モデルを系統的に用いて、訓練なし、再訓練、ファインチューニングの各戦略の効果を評価した。また、訓練がMLLMの元来の能力に与える影響や、検出モデル間の交換可能性についても検証した。その結果、事前学習済みMLLMに対してテキスト形式の検出情報を組み込む形でファインチューニングを行うことで、訓練なしおよび再訓練手法に比べて顕著な性能向上が得られ、10の広く認識されたベンチマークにおいて平均で6.71%の性能向上が確認された。さらに、ファインチューニングにより、検出モデルを交換しても性能の向上が維持されることが明らかとなり、MLLMが形式化されたテキストデータに対する理解力が向上していることを示している。本研究では、視覚検出モデルとの融合戦略のさらなる探求およびMLLMの細粒度マルチモーダル能力の強化を支援するため、実装コードを公開する。

ソースPDF