HyperAIHyperAI
il y a 2 mois

Transformateur pour la Compréhension des Documents sans OCR

Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun
Transformateur pour la Compréhension des Documents sans OCR
Résumé

La compréhension d'images de documents (par exemple, des factures) est une tâche fondamentale mais complexe, car elle nécessite des fonctions avancées telles que la lecture de texte et une compréhension globale du document. Les méthodes actuelles de Compréhension Visuelle des Documents (CVD) externalisent la tâche de lecture de texte à des moteurs de Reconnaissance Optique de Caractères (OCR) préexistants et se concentrent sur la tâche de compréhension en utilisant les résultats OCR. Bien que ces approches basées sur l'OCR aient montré des performances prometteuses, elles souffrent de 1) coûts computationnels élevés pour l'utilisation de l'OCR ; 2) une flexibilité limitée des modèles OCR en termes de langues ou de types de documents ; 3) une propagation des erreurs OCR au processus suivant. Pour résoudre ces problèmes, dans cet article, nous présentons un nouveau modèle CVD sans OCR nommé Donut, qui signifie Document Understanding Transformer (Transformateur pour la Compréhension des Documents). En tant que première étape dans la recherche sur le CVD sans OCR, nous proposons une architecture simple (c'est-à-dire un Transformateur) avec un objectif d'entraînement préalable (c'est-à-dire la perte de cross-entropie). Donut est conceptuellement simple mais efficace. À travers des expérimentations et analyses approfondies, nous démontrons qu'un modèle CVD simple sans OCR, Donut, atteint des performances d'état de l'art sur diverses tâches CVD en termes de vitesse et de précision. De plus, nous fournissons un générateur de données synthétiques qui aide l'entraînement préalable du modèle à être flexible dans différentes langues et domaines. Le code source, le modèle entraîné et les données synthétiques sont disponibles à l'adresse suivante : https://github.com/clovaai/donut.

Transformateur pour la Compréhension des Documents sans OCR | Articles de recherche récents | HyperAI