17日前

DocVQA:ドキュメント画像に対するVQAのためのデータセット

Minesh Mathew, Dimosthenis Karatzas, C.V. Jawahar
DocVQA:ドキュメント画像に対するVQAのためのデータセット
要約

ドキュメント画像における視覚的質問応答(Visual Question Answering: VQA)を目的とした新しいデータセット「DocVQA」を紹介する。本データセットは、12,000枚以上のドキュメント画像を対象に、合計50,000件の質問を含んでいる。また、同様のVQAおよび読解理解データセットとの比較を通じて、本データセットの詳細な分析を提示する。既存のVQAおよび読解理解モデルを用いて複数のベースライン結果を報告した。現行モデルは特定の質問タイプに対しては比較的良い性能を示すものの、人間の性能(正解率94.36%)と比較すると大きな性能ギャップが存在する。特に、ドキュメントの構造的理解が不可欠な質問に対しては、モデルの性能向上が特に求められる。本データセット、実装コード、およびリーダーボードは、https://docvqa.org にて公開されている。

DocVQA:ドキュメント画像に対するVQAのためのデータセット | 最新論文 | HyperAI超神経