HyperAIHyperAI

Command Palette

Search for a command to run...

DocVQA:ドキュメント画像に対するVQAのためのデータセット

Minesh Mathew Dimosthenis Karatzas C.V. Jawahar

概要

ドキュメント画像における視覚的質問応答(Visual Question Answering: VQA)を目的とした新しいデータセット「DocVQA」を紹介する。本データセットは、12,000枚以上のドキュメント画像を対象に、合計50,000件の質問を含んでいる。また、同様のVQAおよび読解理解データセットとの比較を通じて、本データセットの詳細な分析を提示する。既存のVQAおよび読解理解モデルを用いて複数のベースライン結果を報告した。現行モデルは特定の質問タイプに対しては比較的良い性能を示すものの、人間の性能(正解率94.36%)と比較すると大きな性能ギャップが存在する。特に、ドキュメントの構造的理解が不可欠な質問に対しては、モデルの性能向上が特に求められる。本データセット、実装コード、およびリーダーボードは、https://docvqa.org にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DocVQA:ドキュメント画像に対するVQAのためのデータセット | 記事 | HyperAI超神経