HyperAIHyperAI

Command Palette

Search for a command to run...

LAPDoc : Amorcage conscient du layout pour les documents

Marcel Lamott Yves-Noel Weweler Adrian Ulges Faisal Shafait Dirk Krechel Darko Obradovic

Résumé

Les avancées récentes dans l'entraînement des grands modèles linguistiques (LLM) à l’aide de quantités massives de données exclusivement textuelles ont permis d’obtenir une généralisation remarquable sur de nombreux domaines et tâches, y compris celles spécifiques aux documents. À l’opposé, une tendance émerge vers le développement d’architectures transformer multimodales spécifiquement conçues pour la compréhension des documents, capables de fusionner de manière explicite les entrées textuelles avec la mise en page correspondante. Ce type de modèle nécessite généralement une étape de fine-tuning supplémentaire, pour laquelle des données d’entraînement supplémentaires sont requises. Actuellement, aucun modèle transformer de documents n’offre une généralisation comparable à celle des LLM. Cela soulève la question de savoir quel type de modèle devrait être privilégié pour les tâches de compréhension de documents. Dans ce papier, nous étudions la possibilité d’utiliser des LLM purement textuels pour des tâches spécifiques aux documents en enrichissant les entrées avec des informations de mise en page. Nous explorons des modifications directement intégrables ainsi que des méthodes basées sur des règles pour enrichir les prompts des LLM purement textuels avec des données de mise en page. Dans nos expériences, nous évaluons les effets de cette approche sur le modèle commercial ChatGPT ainsi que sur le modèle open-source Solar. Nous démontrons que, grâce à notre méthode, les deux LLM améliorent significativement leurs performances sur diverses benchmarks standards de documents. En outre, nous analysons l’impact des erreurs d’OCR bruitées et des erreurs de mise en page, ainsi que les limites inhérentes des LLM lors de l’utilisation efficace de la structure documentaire. Nos résultats indiquent qu’un enrichissement de la mise en page peut améliorer les performances des LLM purement textuels pour la compréhension des documents jusqu’à 15 % par rapport à l’utilisation exclusive du texte brut du document. En conclusion, cette approche devrait être prise en considération lors du choix optimal entre un LLM basé uniquement sur le texte et un transformer multimodal dédié aux documents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp