il y a 8 mois

Résumé

La détection de l'ordre de lecture est la pierre angulaire pour comprendre les documents visuellement riches (par exemple, des factures et des formulaires). Malheureusement, aucun travail existant n'a exploité les modèles avancés d'apprentissage profond en raison de la difficulté excessive à annoter un ensemble de données suffisamment important. Nous constatons que l'ordre de lecture des documents WORD est intégré dans leurs métadonnées XML ; par ailleurs, il est facile de convertir ces documents WORD en PDF ou en images. Par conséquent, de manière automatisée, nous avons construit ReadingBank, un jeu de données de référence qui contient l'ordre de lecture, le texte et les informations sur la mise en page pour 500 000 images de documents couvrant une large gamme de types de documents. Ce premier ensemble de données à grande échelle libère le potentiel des réseaux neuronaux profonds pour la détection de l'ordre de lecture. Plus précisément, notre modèle proposé LayoutReader capture les informations textuelles et sur la mise en page pour prédire l'ordre de lecture en utilisant le modèle seq2seq. Il se montre presque parfait dans la détection de l'ordre de lecture et améliore considérablement à la fois les moteurs OCR open source et commerciaux dans le classement des lignes de texte dans leurs résultats lors de nos expériences. Nous mettrons à disposition le jeu de données et le modèle à l'adresse \url{https://aka.ms/layoutreader}.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

OCR

Jeu De Données

Infrastructure D'ia

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension De Document

OCR

Jeu De Données

Infrastructure D'ia

Traitement Du Langage Naturel

Vision Par Ordinateur

Tâche

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

LayoutReader : Pré-entraînement du texte et de la mise en page pour la détection de l'ordre de lecture

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LayoutReader : Pré-entraînement du texte et de la mise en page pour la détection de l'ordre de lecture

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LayoutReader : Pré-entraînement du texte et de la mise en page pour la détection de l'ordre de lecture

Zilong Wang Yiheng Xu Lei Cui Jingbo Shang Furu Wei

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters