il y a 8 mois

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Résumé

La compréhension d'images de documents (par exemple, des factures) est une tâche fondamentale mais complexe, car elle nécessite des fonctions avancées telles que la lecture de texte et une compréhension globale du document. Les méthodes actuelles de Compréhension Visuelle des Documents (CVD) externalisent la tâche de lecture de texte à des moteurs de Reconnaissance Optique de Caractères (OCR) préexistants et se concentrent sur la tâche de compréhension en utilisant les résultats OCR. Bien que ces approches basées sur l'OCR aient montré des performances prometteuses, elles souffrent de 1) coûts computationnels élevés pour l'utilisation de l'OCR ; 2) une flexibilité limitée des modèles OCR en termes de langues ou de types de documents ; 3) une propagation des erreurs OCR au processus suivant. Pour résoudre ces problèmes, dans cet article, nous présentons un nouveau modèle CVD sans OCR nommé Donut, qui signifie Document Understanding Transformer (Transformateur pour la Compréhension des Documents). En tant que première étape dans la recherche sur le CVD sans OCR, nous proposons une architecture simple (c'est-à-dire un Transformateur) avec un objectif d'entraînement préalable (c'est-à-dire la perte de cross-entropie). Donut est conceptuellement simple mais efficace. À travers des expérimentations et analyses approfondies, nous démontrons qu'un modèle CVD simple sans OCR, Donut, atteint des performances d'état de l'art sur diverses tâches CVD en termes de vitesse et de précision. De plus, nous fournissons un générateur de données synthétiques qui aide l'entraînement préalable du modèle à être flexible dans différentes langues et domaines. Le code source, le modèle entraîné et les données synthétiques sont disponibles à l'adresse suivante : https://github.com/clovaai/donut.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

Multimodal

Vision Par Ordinateur

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

Multimodal

Vision Par Ordinateur

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Transformateur pour la Compréhension des Documents sans OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur pour la Compréhension des Documents sans OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur pour la Compréhension des Documents sans OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park