UDK-VQA データ生成フレームワーク
UDK-VQA フレームワークは、2024 年に上海人工知能研究所、北京工業大学、浙江大学、香港大学が共同で提案したデータ生成フレームワークです。実データのフィードバックにおいてマルチモーダル大規模モデルを支援するように設計されています。 -時間情報。関連する論文結果は「SearchLVLMs: 最新のインターネット知識を検索して大規模な視覚言語モデルを拡張するためのプラグアンドプレイ フレームワーク”。
UDK-VQA フレームワークの主な目的は、既存の大規模ビジュアル言語モデル (LVLM) を強化して、最先端の知識に関するビジュアル質問応答 (VQA) を処理できるようにすることです。大規模なビジュアル言語モデルは、最新の知識を組み込むために頻繁に更新できないため、多くの場合、最新の情報を必要とするシナリオを処理するときに失敗します。たとえば、LVLM が 2024 年 1 月にリリースされた場合、2024 年 4 月に公開された映画のテーマソング歌手が誰であるかはわかりません。
この問題を解決するために、研究者らは、インターネット検索による推論中に LVLM に最新の知識を提供するプラグアンドプレイ フレームワーク、いわゆるインターネット拡張世代 (IAG) を提案しました。 UDK-VQA フレームワークは、検索エンジンから返された Web ページから最も有用なコンテンツを効果的かつ効率的に見つけるための階層フィルタリング モデルをトレーニングすることにより、LVLM に最新の知識を提供します。
さらに、モデルをトレーニングしてフレームワークのパフォーマンスを評価するために、研究者らはニュース関連の VQA サンプルを自動的に生成してデータセットを構築するプロセスを提案しました。これは UDK-VQA と名付けられました。