LayoutReader : Pré-entraînement du texte et de la mise en page pour la détection de l'ordre de lecture

La détection de l'ordre de lecture est la pierre angulaire pour comprendre les documents visuellement riches (par exemple, des factures et des formulaires). Malheureusement, aucun travail existant n'a exploité les modèles avancés d'apprentissage profond en raison de la difficulté excessive à annoter un ensemble de données suffisamment important. Nous constatons que l'ordre de lecture des documents WORD est intégré dans leurs métadonnées XML ; par ailleurs, il est facile de convertir ces documents WORD en PDF ou en images. Par conséquent, de manière automatisée, nous avons construit ReadingBank, un jeu de données de référence qui contient l'ordre de lecture, le texte et les informations sur la mise en page pour 500 000 images de documents couvrant une large gamme de types de documents. Ce premier ensemble de données à grande échelle libère le potentiel des réseaux neuronaux profonds pour la détection de l'ordre de lecture. Plus précisément, notre modèle proposé LayoutReader capture les informations textuelles et sur la mise en page pour prédire l'ordre de lecture en utilisant le modèle seq2seq. Il se montre presque parfait dans la détection de l'ordre de lecture et améliore considérablement à la fois les moteurs OCR open source et commerciaux dans le classement des lignes de texte dans leurs résultats lors de nos expériences. Nous mettrons à disposition le jeu de données et le modèle à l'adresse \url{https://aka.ms/layoutreader}.