SearchLVLM フレームワーク
SearchLVLMs フレームワークは、既存の大規模視覚言語モデルを強化することを目的として、2024 年に上海人工知能研究所 (OpenGVLab)、北京工業大学、浙江大学、香港大学が共同で提案したプラグアンドプレイ ソリューションです。 (LVLM) ) 最先端の知識に関するビジュアル質問応答 (VQA) を処理する能力。関連する論文結果は「SearchLVLMs: 最新のインターネット知識を検索して大規模な視覚言語モデルを拡張するためのプラグアンドプレイ フレームワーク”。
大規模な視覚言語モデル (LLaVA シリーズなど) は、頻繁に更新できず、最新の知識 (新しい映画のテーマソング歌手など) を知らないため、多くの場合パフォーマンスが低くなります。 SearchLVLMs フレームワークは、LVLM が最新の知識を取得できるように、推論フェーズ中にインターネット検索機能を強化することで、この問題を改善します。
SearchLVLMs フレームワークは主に、クエリ生成、検索エンジン呼び出し、階層フィルタリングの 3 つの部分で構成されます。クエリ生成フェーズでは、フレームワークは質問と画像を完全に理解し、検索エンジンに適したテキスト クエリに変換する必要があります。検索エンジン呼び出しフェーズでは、ユーザーは質問の種類に基づいて呼び出す検索エンジン カテゴリを選択できます。最後に、階層フィルタリングの段階で、フレームワークは、検索エンジンから返された Web ページから最も有用なコンテンツを効率的に見つけるようにモデルをトレーニングします。
実験結果によると、SearchLVLMs フレームワークは、最新の知識を必要とする質問に答える際の LVLM のパフォーマンスを大幅に向上させることができ、その精度は GPT-4V を約 25% 上回ります。 SearchLVLMs フレームワークの提案は、大規模なマルチモーダル モデルにプラグ アンド プレイ ソリューションを提供し、最新のインターネット知識をシームレスに統合し、リアルタイム情報に関するモデルのフィードバック能力を向上させることができます。