3ヶ月前
REVEAL:マルチソースマルチモーダル知識メモリを用いたリトリーバー拡張型視覚言語事前学習
Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi

要約
本稿では、世界知識を大規模メモリにエンコードし、そのメモリから関連情報を検索して知識集約型の質問に回答できるエンドツーエンド型の検索拡張型視覚言語モデル(REVEAL)を提案する。REVEALは、メモリ、エンコーダ、リトリーバ、ジェネレータの4つの主要な構成要素から構成される。大規模メモリは、統一されたエンコーダを用いて、画像-テキストペア、質問-回答ペア、知識グラフの三項組など、多様なマルチモーダル世界知識を統合的にエンコードする。リトリーバはメモリ内の最も関連性の高い知識エントリを検索し、ジェネレータは取得した知識を入力クエリと統合して出力を生成する。本手法の重要な特徴は、メモリ、エンコーダ、リトリーバ、ジェネレータが、膨大な量のデータ上でエンドツーエンドで事前学習されている点である。さらに、本手法は多様なマルチモーダル知識源を活用可能であり、これが顕著な性能向上をもたらすことが実証された。実験の結果、REVEALは視覚的質問応答(VQA)および画像キャプション生成において、既存の最先端手法を上回る性能を達成した。