XDoc : Formation pré-unifiée pour la compréhension de documents transformatifs

L'essor du pré-entraînement a récemment été témoin d'un développement rapide de la compréhension des documents. Le cadre de pré-entraînement et d'affinage (fine-tuning) a été utilisé efficacement pour traiter des textes sous divers formats, y compris des textes simples, des textes de documents et des textes web. Malgré les performances prometteuses obtenues, les modèles pré-entraînés existants ciblent généralement un format de document spécifique à la fois, ce qui rend difficile l'intégration des connaissances provenant de plusieurs formats de documents. Pour remédier à cela, nous proposons XDoc, un modèle pré-entraîné unifié capable de traiter différents formats de documents au sein d'un seul modèle. Dans le but d'une efficacité paramétrique, nous partageons les paramètres du tronc commun pour différents formats, tels que la couche d'incrustation de mots (word embedding layer) et les couches Transformer. Parallèlement, nous introduisons des couches adaptatives avec des paramètres légers pour améliorer la distinction entre les différents formats. Les résultats expérimentaux ont démontré que XDoc atteint une performance comparable ou même supérieure sur une variété de tâches en aval avec seulement 36,7% des paramètres par rapport aux modèles pré-entraînés individuels, ce qui est économique pour un déploiement dans le monde réel. Le code source et les modèles pré-entraînés seront mis à disposition publiquement sur \url{https://aka.ms/xdoc}.