11日前

細粒度後段相互作用型マルチモーダル検索による検索拡張型視覚質問応答

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
細粒度後段相互作用型マルチモーダル検索による検索拡張型視覚質問応答
要約

知識ベース視覚質問応答(KB-VQA)は、視覚的に根拠を持つ質問に答えるためのVQAシステムが、外部の知識ベースからの知識を活用することを要求する。検索拡張型視覚質問応答(RA-VQA)は、KB-VQAに対処する強力なフレームワークであり、まず密集パス検索(DPR)を用いて関連ドキュメントを取得し、その後それらを用いて質問に回答する。本稿では、RA-VQAにおける知識検索を著しく向上させる、細粒度後段相互作用型マルチモーダル検索(FLMR)を提案する。FLMRは、RA-VQAの検索モジュールにおける2つの主要な限界を解決する。第一に、画像からテキストへの変換によって得られる画像表現は、不完全または不正確である可能性がある。第二に、クエリとドキュメント間の関連性スコアは1次元の埋め込み表現で計算されるため、より細粒度な関連性に対して感度が不足する。FLMRは、既存のテキストベース検索器と整合性を持つ視覚モデルを、単純なアライメントネットワークを通じて統合することで、画像到達表現を補完する。また、クエリとドキュメント間のより細粒度な関連性を捉えるために、画像および質問を多次元埋め込み表現で符号化する。FLMRは、元のRA-VQA検索器のPRRecall@5を約8%向上させた。さらに、RA-VQAに2つの最先端の大規模マルチモーダル/言語モデルを組み込み、OK-VQAデータセットにおいて約61%のVQAスコアを達成した。

細粒度後段相互作用型マルチモーダル検索による検索拡張型視覚質問応答 | 最新論文 | HyperAI超神経