11日前

ConvLLaVA：大規模なマルチモーダルモデルにおける視覚エンコーダとしての階層的バックボーン

Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng

要約

高解像度の大規模マルチモーダルモデル（LMM）は、過剰な視覚トークンの生成と二次的な視覚計算複雑性という課題に直面している。現在の高解像度LMMは二次的な複雑性を緩和しているものの、依然として過剰な視覚トークンを生成している。しかしこの視覚トークンの冗長性こそが根本的な問題であり、これにより計算リソースの消費が著しく増大する。この問題を軽減するため、本研究では、視覚エンコーダとして階層的構造を持つConvNeXtを採用し、従来のVision Transformer（ViT）を置き換えるConvLLaVAを提案する。ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮することで、過剰な視覚トークンの生成を効果的に抑制する。さらに、ConvLLaVAの性能を強化するため、2つの重要な最適化手法を導入する。まず、低解像度で事前学習されたConvNeXtは高解像度入力に対して直接適用した場合に性能が劣るため、これを適応的に更新することで性能ギャップを埋める。また、ConvNeXtの元々の圧縮比はさらに高い解像度の入力に対して不十分であるため、追加の段階を訓練し、視覚トークンのさらなる圧縮を実現し、冗長性を低減する。これらの最適化により、ConvLLaVAは1536×1536解像度の入力に対応しつつ、わずか576個の視覚トークンを生成でき、任意のアスペクト比の画像処理が可能となる。実験結果から、本手法は主流のベンチマークにおいて最先端モデルと競合する性能を達成した。ConvLLaVAモデルシリーズは、公開されており、GitHubにて利用可能である：https://github.com/alibaba/conv-llava。