HyperAIHyperAI

Command Palette

Search for a command to run...

外部知識を用いたリトリーブ拡張型視覚質問応答

Weizhe Lin Bill Byrne

概要

外部知識を活用した視覚質問応答(OK-VQA)は、画像に関する質問に答えるために外部知識の取得を必要とする挑戦的なVQAタスクである。近年のOK-VQAシステムでは、Wikipediaなどの外部知識ベースから文書を取得するために、密なパラグラフ検索(Dense Passage Retrieval; DPR)が用いられているが、DPRが回答生成と別々に訓練されているため、システム全体の性能に限界が生じる可能性がある。本研究では、DPRを回答生成と微分可能に統合した連合学習スキームを提案する。これにより、システム全体をエンドツーエンドで学習可能となる。実験の結果、強力なDPRを用いた最近のOK-VQAシステムと比較して、本スキームは優れた性能を発揮することが示された。また、検索と生成の相互作用を分析するための新たな診断指標も導入した。本モデルの優れた検索能力により、学習に必要な検索文書数が大幅に削減され、回答品質の向上と学習に必要な計算資源の削減という、顕著な利点が得られた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています