17日前

画像プールからの回答マイニング:リトリーバルベースの視覚質問応答へ

Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand Mishra
画像プールからの回答マイニング:リトリーバルベースの視覚質問応答へ
要約

視覚的質問応答(VQA)において、回答が提示された文脈として与えられる関連画像と非関連画像のプールから抽出されなければならない状況を検討する。このような設定では、モデルはまずプール内から関連する画像を検索し、その検索結果に基づいて質問に答える必要がある。この問題を「検索ベース型視覚的質問応答」(Retrieval-based Visual Question Answering、略してRETVQA)と呼ぶ。RETVQAは、文脈に一つの関連画像が与えられ、その画像に基づいて質問に答える従来のVQAと異なり、より複雑かつ挑戦的な課題である。RETVQAを解決するため、我々は新たな統合型マルチ画像BART(Multi Image BART、MI-BART)を提案する。このモデルは、我々が開発した関連性エンコーダを用いて質問と検索された複数の画像を入力とし、自由な表現による自然な回答生成を可能にする。さらに、本研究分野において最大規模となるデータセット「RETVQA」を導入する。このデータセットの特徴は以下の通りである:VQAにおける複数画像の使用と検索要件、異種の画像群を対象としたメタデータに依存しない質問、および分類指向とオープンエンド型生成の両方の回答形式を必要とする点である。提案するフレームワークは、自ら提案したデータセットRETVQAにおいて、正解率76.5%、自然さ(fluency)79.3%を達成し、公開されているWebQAデータセットの画像セグメントにおいても、従来の最先端手法を正解率で4.9%、自然さで11.8%上回った。

画像プールからの回答マイニング:リトリーバルベースの視覚質問応答へ | 最新論文 | HyperAI超神経