DeepStack:視覚トークンを深く積み重ねることは、LMMsにおいて驚くほどシンプルかつ効果的である

大多数の大規模なマルチモーダルモデル(LMM)は、視覚トークンを順序付きのシーケンスとして、大規模言語モデル(LLM)の最初の層に供給する形で実装されている。このアーキテクチャは単純であるが、入力層で追加の多数のトークンを処理しなければならないため、計算量およびメモリコストが著しく増加する。本論文では、LMM向けに新たなアーキテクチャ「DeepStack」を提案する。LMMにおける言語および視覚Transformerの層数を$N$と仮定し、視覚トークンを$N$つのグループに分割し、それぞれを下位から上位へと対応するTransformer層に逐次入力する。驚くべきことに、この単純な手法は、層間における視覚トークン間の相互作用をモデル化する能力を大幅に向上させる一方で、追加コストは最小限に抑えることができる。本手法はLMMの言語および視覚Transformerの両方に適用可能であり、広範な実証的評価を通じてDeepStack LMMの有効性を検証した。同じコンテキスト長を用いた場合、DeepStack 7Bおよび13Bモデルは、それぞれ9つのベンチマーク平均で、対応するベースラインモデルを2.7および2.9上回った。コンテキスト長を五分の一に削減した場合でも、全長コンテキストを使用するベースラインモデルとほぼ同等の性能を達成した。特に高解像度タスクにおいてその効果が顕著であり、TextVQA、DocVQA、InfoVQAでは、LLaVA-1.5-7Bと比較してそれぞれ4.2、11.0、4.0の性能向上が得られた。さらに、視覚Transformer層に対してもDeepStackを適用した結果、LLaVA-1.5-7Bと比較して平均で3.8の向上が確認され、同程度の性能改善が得られた。