DocVQA : Un jeu de données pour la VQA sur des images de documents

Nous présentons un nouveau jeu de données pour la question-réponse visuelle (VQA) sur des images de documents, intitulé DocVQA. Ce jeu de données comprend 50 000 questions posées sur plus de 12 000 images de documents. Une analyse détaillée du jeu de données est fournie, en comparaison avec d'autres jeux de données similaires dédiés à la VQA et à la compréhension de texte. Nous rapportons plusieurs résultats de base obtenus en adaptant des modèles existants de VQA et de compréhension de texte. Bien que ces modèles fonctionnent raisonnablement bien sur certains types de questions, un écart important demeure par rapport aux performances humaines (94,36 % de précision). Les modèles doivent être améliorés en particulier pour les questions exigeant une compréhension approfondie de la structure du document. Le jeu de données, le code source et le classement en ligne sont disponibles à l’adresse docvqa.org.