HyperAIHyperAI

Command Palette

Search for a command to run...

Approche fondée sur Transformer pour la compréhension de documents

William Hsu Huichen Yang

Résumé

Nous présentons un cadre entièrement end-to-end basé sur les transformeurs, nommé TRDLU, dédié à la tâche de compréhension de la mise en page des documents (Document Layout Understanding, DLU). La DLU constitue la tâche fondamentale permettant de comprendre automatiquement la structure des documents. La détection précise des zones de contenu et leur classification en classes sémantiquement significatives à partir de divers formats de documents restent des défis non résolus. Récemment, les réseaux neuronaux de détection basés sur les transformeurs ont démontré leur supériorité par rapport aux méthodes traditionnelles basées sur les réseaux de convolution dans le domaine de la détection d'objets. Dans cet article, nous considérons la DLU comme une tâche de détection et proposons TRDLU, un modèle intégrant un squelette visuel basé sur les transformeurs ainsi qu’un encodeur-décodeur transformeur comme pipeline de détection. TRDLU est un cadre uniquement basé sur les caractéristiques visuelles, et pourtant ses performances dépassent celles des modèles basés sur des caractéristiques multimodales. À notre connaissance, il s’agit de la première étude exploitant un cadre entièrement fondé sur les transformeurs pour les tâches de DLU. Nous avons évalué TRDLU sur trois jeux de données benchmarks différents pour la DLU, chacun disposant de baselines solides. TRDLU surpasse les méthodes de l’état de l’art actuelles sur l’ensemble de ces trois jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp