2ヶ月前

VQAモデルの読解能力への道程

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

要約

研究によると、視覚障害者が周囲の画像について尋ねる質問の大部分は、画像内のテキストを読むことに関連しています。しかし、今日のVQA（Visual Question Answering）モデルはテキストを読む機能を持っていません。本論文では、この問題への対処に初めて取り組みます。まず、「TextVQA」データセットを導入し、この重要な問題に対する進展を促進します。既存のデータセットは、テキストに関する質問の割合が少ない（例：VQAデータセット）か、規模が小さすぎる（例：VizWizデータセット）という課題があります。TextVQAには、28,408枚の画像に対して45,336件の質問が含まれており、これらの質問にはテキストに関する推論が必要です。次に、画像内のテキストを読み取り、その文脈と質問に基づいて推論を行い、答えを予測する新しいモデルアーキテクチャを提案します。この答えは、テキストと画像に基づく推論結果であるか、または画像内で見つかった文字列から構成される可能性があります。したがって、当方針を「Look, Read, Reason & Answer（LoRRA）」と呼びます。実験結果からLoRRAが既存の最先端VQAモデルよりもTextVQAデータセットで優れた性能を示すことを確認しました。また、TextVQAにおける人間の性能と機械の性能との差異がVQA 2.0よりも著しく大きいことが判明しており、これはTextVQAがVQA 2.0とは異なる方向性での進歩を評価するための基準として適していることを示唆しています。