HyperAIHyperAI

Command Palette

Search for a command to run...

VQAモデルの読解能力への道程

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

概要

研究によると、視覚障害者が周囲の画像について尋ねる質問の大部分は、画像内のテキストを読むことに関連しています。しかし、今日のVQA(Visual Question Answering)モデルはテキストを読む機能を持っていません。本論文では、この問題への対処に初めて取り組みます。まず、「TextVQA」データセットを導入し、この重要な問題に対する進展を促進します。既存のデータセットは、テキストに関する質問の割合が少ない(例:VQAデータセット)か、規模が小さすぎる(例:VizWizデータセット)という課題があります。TextVQAには、28,408枚の画像に対して45,336件の質問が含まれており、これらの質問にはテキストに関する推論が必要です。次に、画像内のテキストを読み取り、その文脈と質問に基づいて推論を行い、答えを予測する新しいモデルアーキテクチャを提案します。この答えは、テキストと画像に基づく推論結果であるか、または画像内で見つかった文字列から構成される可能性があります。したがって、当方針を「Look, Read, Reason & Answer(LoRRA)」と呼びます。実験結果からLoRRAが既存の最先端VQAモデルよりもTextVQAデータセットで優れた性能を示すことを確認しました。また、TextVQAにおける人間の性能と機械の性能との差異がVQA 2.0よりも著しく大きいことが判明しており、これはTextVQAがVQA 2.0とは異なる方向性での進歩を評価するための基準として適していることを示唆しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VQAモデルの読解能力への道程 | 記事 | HyperAI超神経