DocFormerv2 : Fonctionnalités locales pour la compréhension de documents

Nous proposons DocFormerv2, un transformer multimodal pour la compréhension visuelle des documents (Visual Document Understanding, VDU). Le domaine de la VDU consiste à comprendre les documents (au-delà de simples prédictions OCR), par exemple en extrayant des informations à partir de formulaires, en réalisant des tâches de question-réponse sur documents (VQA) ou d'autres tâches similaires. La VDU est un défi car elle exige que le modèle parvienne à intégrer et à interpréter plusieurs modalités (visuelle, linguistique et spatiale) pour produire une prédiction. Notre approche, appelée DocFormerv2, est un modèle encoder-decoder basé sur un transformer, prenant en entrée des caractéristiques visuelles, linguistiques et spatiales. DocFormerv2 est pré-entraîné à l’aide de tâches non supervisées, appliquées de manière asymétrique : deux nouvelles tâches documentaires sont définies pour l’encodeur, tandis qu’une seule est utilisée pour le décodeur auto-régressif. Ces tâches non supervisées ont été soigneusement conçues afin d’encourager une alignement local entre les caractéristiques des différentes modalités pendant le pré-entraînement. Lorsqu’il est évalué sur neuf jeux de données, DocFormerv2 atteint des performances de pointe par rapport à des modèles de référence robustes, notamment +4,3 % sur TabFact, +1,4 % sur InfoVQA et +1 % sur FUNSD. Pour démontrer ses capacités de généralisation, sur trois tâches de VQA impliquant du texte dans des scènes, DocFormerv2 surpassent des modèles de taille comparable, et même surpassent certains modèles bien plus volumineux (comme GIT2, PaLi et Flamingo) sur certaines tâches. Des études d’ablation approfondies montrent que, grâce à son pré-entraînement, DocFormerv2 comprend mieux les différentes modalités que les méthodes antérieures dans le domaine de la VDU.