13日前

PreFLMR:細粒度後期相互作用型マルチモーダルリトリーバーのスケーリングアップ

Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne
PreFLMR:細粒度後期相互作用型マルチモーダルリトリーバーのスケーリングアップ
要約

大規模なマルチモーダルモデル(LMMs)は自然言語および視覚理解において優れた性能を発揮するが、ドキュメントコレクションから関連情報を検索し、質問に対する回答を構築する必要がある、知識ベース視覚質問応答(KB-VQA)のような高度なタスクには課題に直面している。本研究では、KB-VQA向けに包括的な学習および評価フレームワーク「M2KR」を提案する。M2KRは、視覚と言語の複数のタスクを統合したベンチマークタスクの一つのシートとして構成されており、汎用的なマルチモーダル検索モデルの学習および評価を可能にする。本研究では、M2KRを用いて、最近開発された細粒度後段相互作用型マルチモーダル検索手法(FLMR)の事前学習版「PreFLMR」を構築し、複数のタスクにおいて新たな最先端(SOTA)の成果を報告する。また、PreFLMRのスケーリング特性に関する調査も行い、今後の汎用マルチモーダル検索モデルの開発に役立つ知見を提供する。

PreFLMR:細粒度後期相互作用型マルチモーダルリトリーバーのスケーリングアップ | 最新論文 | HyperAI超神経