2ヶ月前

ミニジェミナイ:マルチモダリティ視覚言語モデルの可能性の掘り起こし

Li, Yanwei ; Zhang, Yuechen ; Wang, Chengyao ; Zhong, Zhisheng ; Chen, Yixin ; Chu, Ruihang ; Liu, Shaoteng ; Jia, Jiaya
ミニジェミナイ:マルチモダリティ視覚言語モデルの可能性の掘り起こし
要約

本研究では、Mini-Geminiというシンプルかつ効果的なフレームワークを紹介します。このフレームワークは、多モーダルビジョン言語モデル(VLM)の性能を向上させることを目指しています。VLMの進歩により基本的な視覚対話や推論が可能になりましたが、GPT-4やGeminiなどの先進的なモデルと比較して性能に差が残っています。当研究では、この性能差を縮めるために、高解像度ビジュアルトークン、高品質データ、およびVLMガイド生成の3つの観点からVLMの潜在能力を引き出すことを試みます。ビジュアルトークンの強化のために、追加のビジュアルエンコーダーを使用し、ビジュアルトークン数を増やすことなく高解像度の精緻化を行う手法を提案します。さらに、正確な画像理解と推論に基づく生成を促進する高品質データセットを作成し、現行のVLMの運用範囲を拡大します。一般的に、Mini-GeminiはVLMの潜在能力をさらに引き出し、画像理解、推論、生成機能を同時に強化することで現行のフレームワークを強力にサポートします。Mini-Geminiは20億パラメータから340億パラメータまでの一連の稠密型および専門知識エキスパート(MoE)の大規模言語モデル(LLM)に対応しています。複数のゼロショットベンチマークにおいて優れた性能を達成しており、開発されたプライベートモデルを超える実績も示されています。コードとモデルはhttps://github.com/dvlab-research/MiniGeminiで公開されています。

ミニジェミナイ:マルチモダリティ視覚言語モデルの可能性の掘り起こし | 最新論文 | HyperAI超神経