HyperAIHyperAI
il y a 7 jours

LAPDoc : Amorcage conscient du layout pour les documents

Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic
LAPDoc : Amorcage conscient du layout pour les documents
Résumé

Les avancées récentes dans l'entraînement des grands modèles linguistiques (LLM) à l’aide de quantités massives de données exclusivement textuelles ont permis d’obtenir une généralisation remarquable sur de nombreux domaines et tâches, y compris celles spécifiques aux documents. À l’opposé, une tendance émerge vers le développement d’architectures transformer multimodales spécifiquement conçues pour la compréhension des documents, capables de fusionner de manière explicite les entrées textuelles avec la mise en page correspondante. Ce type de modèle nécessite généralement une étape de fine-tuning supplémentaire, pour laquelle des données d’entraînement supplémentaires sont requises. Actuellement, aucun modèle transformer de documents n’offre une généralisation comparable à celle des LLM. Cela soulève la question de savoir quel type de modèle devrait être privilégié pour les tâches de compréhension de documents. Dans ce papier, nous étudions la possibilité d’utiliser des LLM purement textuels pour des tâches spécifiques aux documents en enrichissant les entrées avec des informations de mise en page. Nous explorons des modifications directement intégrables ainsi que des méthodes basées sur des règles pour enrichir les prompts des LLM purement textuels avec des données de mise en page. Dans nos expériences, nous évaluons les effets de cette approche sur le modèle commercial ChatGPT ainsi que sur le modèle open-source Solar. Nous démontrons que, grâce à notre méthode, les deux LLM améliorent significativement leurs performances sur diverses benchmarks standards de documents. En outre, nous analysons l’impact des erreurs d’OCR bruitées et des erreurs de mise en page, ainsi que les limites inhérentes des LLM lors de l’utilisation efficace de la structure documentaire. Nos résultats indiquent qu’un enrichissement de la mise en page peut améliorer les performances des LLM purement textuels pour la compréhension des documents jusqu’à 15 % par rapport à l’utilisation exclusive du texte brut du document. En conclusion, cette approche devrait être prise en considération lors du choix optimal entre un LLM basé uniquement sur le texte et un transformer multimodal dédié aux documents.

LAPDoc : Amorcage conscient du layout pour les documents | Articles de recherche récents | HyperAI