HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur pour la Compréhension des Documents sans OCR

Résumé

La compréhension d'images de documents (par exemple, des factures) est une tâche fondamentale mais complexe, car elle nécessite des fonctions avancées telles que la lecture de texte et une compréhension globale du document. Les méthodes actuelles de Compréhension Visuelle des Documents (CVD) externalisent la tâche de lecture de texte à des moteurs de Reconnaissance Optique de Caractères (OCR) préexistants et se concentrent sur la tâche de compréhension en utilisant les résultats OCR. Bien que ces approches basées sur l'OCR aient montré des performances prometteuses, elles souffrent de 1) coûts computationnels élevés pour l'utilisation de l'OCR ; 2) une flexibilité limitée des modèles OCR en termes de langues ou de types de documents ; 3) une propagation des erreurs OCR au processus suivant. Pour résoudre ces problèmes, dans cet article, nous présentons un nouveau modèle CVD sans OCR nommé Donut, qui signifie Document Understanding Transformer (Transformateur pour la Compréhension des Documents). En tant que première étape dans la recherche sur le CVD sans OCR, nous proposons une architecture simple (c'est-à-dire un Transformateur) avec un objectif d'entraînement préalable (c'est-à-dire la perte de cross-entropie). Donut est conceptuellement simple mais efficace. À travers des expérimentations et analyses approfondies, nous démontrons qu'un modèle CVD simple sans OCR, Donut, atteint des performances d'état de l'art sur diverses tâches CVD en termes de vitesse et de précision. De plus, nous fournissons un générateur de données synthétiques qui aide l'entraînement préalable du modèle à être flexible dans différentes langues et domaines. Le code source, le modèle entraîné et les données synthétiques sont disponibles à l'adresse suivante : https://github.com/clovaai/donut.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur pour la Compréhension des Documents sans OCR | Articles | HyperAI