HyperAIHyperAI

Command Palette

Search for a command to run...

StrucTexTv2 : Prédiction visuelle-textuelle masquée pour le pré-entraînement d'images de documents

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

Résumé

Dans cet article, nous présentons StrucTexTv2, un cadre de pré-entraînement efficace pour les images de documents, basé sur la prédiction visuelle et textuelle masquée. Il comprend deux tâches de pré-entraînement auto-supervisées : le modèle d'image masquée et le modèle de langage masqué, tous deux fondés sur le masquage des images au niveau des régions textuelles. La méthode proposée masque aléatoirement certaines régions d'images en fonction des coordonnées des boîtes englobantes des mots textuels. Les objectifs de nos tâches de pré-entraînement consistent à reconstruire simultanément les pixels des régions d'images masquées et les jetons correspondants également masqués. Ainsi, l'encodeur pré-entraîné peut capturer davantage de sémantique textuelle par rapport au modèle d'image masquée qui prédit généralement les patches d'images masquées. Comparativement aux méthodes de modélisation multimodale masquée pour la compréhension des images de documents qui dépendent à la fois des modalités image et texte, StrucTexTv2 modélise une entrée uniquement image et peut potentiellement traiter plus de scénarios d'application sans nécessiter un pré-traitement OCR. Des expériences approfondies sur les principaux jeux de données de référence pour la compréhension des images de documents démontrent l'efficacité de StrucTexTv2. Il atteint une performance compétitive ou même nouvelle state-of-the-art dans diverses tâches en aval telles que la classification d'images, l'analyse de mise en page, la reconnaissance de structure tabulaire, l'OCR de documents et l'extraction d'informations dans un scénario end-to-end.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp