HyperAIHyperAI

Command Palette

Search for a command to run...

PreFLMR:細粒度後期相互作用型マルチモーダルリトリーバーのスケーリングアップ

Weizhe Lin Jingbiao Mei Jinghong Chen Bill Byrne

概要

大規模なマルチモーダルモデル(LMMs)は自然言語および視覚理解において優れた性能を発揮するが、ドキュメントコレクションから関連情報を検索し、質問に対する回答を構築する必要がある、知識ベース視覚質問応答(KB-VQA)のような高度なタスクには課題に直面している。本研究では、KB-VQA向けに包括的な学習および評価フレームワーク「M2KR」を提案する。M2KRは、視覚と言語の複数のタスクを統合したベンチマークタスクの一つのシートとして構成されており、汎用的なマルチモーダル検索モデルの学習および評価を可能にする。本研究では、M2KRを用いて、最近開発された細粒度後段相互作用型マルチモーダル検索手法(FLMR)の事前学習版「PreFLMR」を構築し、複数のタスクにおいて新たな最先端(SOTA)の成果を報告する。また、PreFLMRのスケーリング特性に関する調査も行い、今後の汎用マルチモーダル検索モデルの開発に役立つ知見を提供する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています