HyperAIHyperAI

Command Palette

Search for a command to run...

XDoc : Formation pré-unifiée pour la compréhension de documents transformatifs

Jingye Chen Tengchao Lv Lei Cui Cha Zhang Furu Wei

Résumé

L'essor du pré-entraînement a récemment été témoin d'un développement rapide de la compréhension des documents. Le cadre de pré-entraînement et d'affinage (fine-tuning) a été utilisé efficacement pour traiter des textes sous divers formats, y compris des textes simples, des textes de documents et des textes web. Malgré les performances prometteuses obtenues, les modèles pré-entraînés existants ciblent généralement un format de document spécifique à la fois, ce qui rend difficile l'intégration des connaissances provenant de plusieurs formats de documents. Pour remédier à cela, nous proposons XDoc, un modèle pré-entraîné unifié capable de traiter différents formats de documents au sein d'un seul modèle. Dans le but d'une efficacité paramétrique, nous partageons les paramètres du tronc commun pour différents formats, tels que la couche d'incrustation de mots (word embedding layer) et les couches Transformer. Parallèlement, nous introduisons des couches adaptatives avec des paramètres légers pour améliorer la distinction entre les différents formats. Les résultats expérimentaux ont démontré que XDoc atteint une performance comparable ou même supérieure sur une variété de tâches en aval avec seulement 36,7% des paramètres par rapport aux modèles pré-entraînés individuels, ce qui est économique pour un déploiement dans le monde réel. Le code source et les modèles pré-entraînés seront mis à disposition publiquement sur \url{https://aka.ms/xdoc}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp