Approche fondée sur Transformer pour la compréhension de documents
Nous présentons un cadre entièrement end-to-end basé sur les transformeurs, nommé TRDLU, dédié à la tâche de compréhension de la mise en page des documents (Document Layout Understanding, DLU). La DLU constitue la tâche fondamentale permettant de comprendre automatiquement la structure des documents. La détection précise des zones de contenu et leur classification en classes sémantiquement significatives à partir de divers formats de documents restent des défis non résolus. Récemment, les réseaux neuronaux de détection basés sur les transformeurs ont démontré leur supériorité par rapport aux méthodes traditionnelles basées sur les réseaux de convolution dans le domaine de la détection d'objets. Dans cet article, nous considérons la DLU comme une tâche de détection et proposons TRDLU, un modèle intégrant un squelette visuel basé sur les transformeurs ainsi qu’un encodeur-décodeur transformeur comme pipeline de détection. TRDLU est un cadre uniquement basé sur les caractéristiques visuelles, et pourtant ses performances dépassent celles des modèles basés sur des caractéristiques multimodales. À notre connaissance, il s’agit de la première étude exploitant un cadre entièrement fondé sur les transformeurs pour les tâches de DLU. Nous avons évalué TRDLU sur trois jeux de données benchmarks différents pour la DLU, chacun disposant de baselines solides. TRDLU surpasse les méthodes de l’état de l’art actuelles sur l’ensemble de ces trois jeux de données.