vor 7 Tagen

LAPDoc: Layout-orientiertes Prompting für Dokumente

Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic

Abstract

Neuere Fortschritte bei der Training großer Sprachmodelle (Large Language Models, LLMs) unter Verwendung massiver Mengen ausschließlich textueller Daten haben zu einer starken Generalisierung über zahlreiche Domänen und Aufgaben hinweg geführt, einschließlich dokumentenspezifischer Aufgaben. Im Gegensatz dazu zeichnet sich ein Trend ab, multi-modale Transformer-Architekturen speziell für die Dokumentenverstehens zu trainieren, die gezielt Texteingaben mit der entsprechenden Dokumentenlayout-Information fusionieren sollen. Dies erfordert einen separaten Feinabstimmungsschritt, für den zusätzliche Trainingsdaten benötigt werden. Derzeit stehen jedoch keine Dokumenten-Transformer mit vergleichbarer Generalisierungsfähigkeit wie LLMs zur Verfügung. Dies wirft die Frage auf, welcher Modelltyp für Aufgaben im Bereich Dokumentenverstehen vorzuziehen ist. In diesem Paper untersuchen wir die Möglichkeit, rein textbasierte LLMs für dokumentenspezifische Aufgaben durch Layout-Enrichment einzusetzen. Wir erforschen plug-and-play-Modifikationen sowie regelbasierte Ansätze, um rein textbasierte LLM-Prompts mit Layout-Informationen zu erweitern. In unseren Experimenten untersuchen wir die Auswirkungen auf das kommerzielle Modell ChatGPT und das Open-Source-LLM Solar. Wir zeigen, dass beide Modelle durch unseren Ansatz eine verbesserte Leistung auf verschiedenen Standard-Dokumenten-Benchmarks erreichen. Zudem analysieren wir den Einfluss von fehlerhaften OCR-Ausgaben und Layout-Fehlern sowie die Grenzen von LLMs hinsichtlich der Nutzung von Dokumentenlayout-Informationen. Unsere Ergebnisse deuten darauf hin, dass die Layout-Enrichment-Methode die Leistung reiner textbasierter LLMs beim Dokumentenverstehen im Vergleich zur Nutzung lediglich roher Dokumententexte um bis zu 15 % steigern kann. Insgesamt sollte dieser Ansatz bei der Auswahl des besten Modells zwischen rein textbasierten LLMs und multi-modalen Dokumenten-Transformern ernsthaft berücksichtigt werden.