2ヶ月前
サル:大規模マルチモーダルモデルにおける画像解像度とテキストラベルの重要性
Li, Zhang ; Yang, Biao ; Liu, Qiang ; Ma, Zhiyin ; Zhang, Shuo ; Yang, Jingxu ; Sun, Yabo ; Liu, Yuliang ; Bai, Xiang

要約
大規模マルチモーダルモデル(LMMs)はビジョン言語タスクにおいて有望な結果を示していますが、高解像度入力や詳細なシーン理解には苦戦しています。これらの課題に対処するため、LMMの能力を向上させる「モンキー」を導入します。まず、モンキーは入力画像を一様なパッチに分割して処理します。各パッチは、高性能なビジョンエンコーダーの訓練時に使用されたサイズ(例えば、448x448ピクセル)と一致します。各パッチに個別のアダプターを装備することで、モンキーは最大1344x896ピクセルまでの高解像度を扱うことができ、複雑な視覚情報の詳細な捕捉が可能になります。次に、モンキーは多段階の説明生成手法を使用し、シーンオブジェクト関連のコンテキストを豊かにします。この二つの戦略により、生成データからの学習効果がより高まります。高解像度により視覚情報の詳細な捕捉が可能になり、これによって包括的な説明の効果性が向上します。広範囲にわたる削減実験の結果が当社設計の有効性を証明しています。さらに、18つのデータセットでの実験結果もモンキーが既存のLMMsよりも多くのタスクで優れていることを示しており、特に画像キャプション作成や様々なビジュアル質問応答形式においてその性能が確認されています。特に、密集したテキスト質問応答に焦点を当てた定性的テストでは、GPT4Vと比較してもモンキーは有望な結果を示しました。コードは以下のURLから入手可能です。https://github.com/Yuliang-Liu/Monkey