Layout- und Aufgabenbewusste Anweisungs-Prompt für zero-shot Dokumentbild-Fragebeantwortung

Layout-aware vortrainierte Modelle haben erhebliche Fortschritte im Bereich der Dokumentbild-Fragenbeantwortung erzielt. Sie integrieren zusätzliche lernbare Module in bestehende Sprachmodelle, um Layout-Informationen innerhalb von Dokumentbildern aus den durch OCR-Tools ermittelten Text-Bounding-Box-Koordinaten zu erfassen. Allerdings erfordern diese zusätzlichen Module eine Vortrainierung auf umfangreichen Dokumentbild-Daten, wodurch diese Ansätze nicht direkt auf kommerziell erhältliche, instruktionsgetunte Sprachgrundmodelle zurückgreifen können, die in letzter Zeit vielversprechende Potenziale im Bereich des Zero-Shot-Lernens gezeigt haben. Stattdessen stellen wir in diesem Artikel fest, dass instruktionsgetunte Sprachmodelle wie Claude und ChatGPT Layout-Informationen durch Leerzeichen und Zeilenumbrüche verstehen können. Auf dieser Beobachtung aufbauend schlagen wir den LAyout and Task aware Instruction Prompt (LATIN-Prompt) vor, der aus einem layoutbewussten Dokumentinhalt und einer taskbewussten Anweisung besteht. Insbesondere verwendet der erste Teil geeignete Leerzeichen und Zeilenumbrüche, um die Layout-Informationen zwischen den durch OCR-Tools gewonnenen Textsegmenten wiederherzustellen, während der zweite Teil sicherstellt, dass die generierten Antworten den Formatierungsanforderungen entsprechen. Darüber hinaus führen wir die LAyout and Task aware Instruction Tuning (LATIN-Tuning) ein, um die Leistung kleiner instruktionsgetunter Modelle wie Alpaca zu verbessern. Experimentelle Ergebnisse zeigen, dass LATIN-Prompt die Zero-Shot-Leistung von Claude und ChatGPT auf einem Niveau bringt, das der Fine-Tuning-Leistung der derzeit besten Ansätze in der Dokumentbild-Fragenbeantwortung entspricht, während LATIN-Tuning die Zero-Shot-Leistung von Alpaca erheblich steigert. Beispielsweise verbessert LATIN-Prompt die Leistung von Claude und ChatGPT auf DocVQA um jeweils 263 % und 20 %. LATIN-Tuning steigert die Leistung von Alpaca auf DocVQA um 87,7 %. Quantitative und qualitative Analysen belegen die Wirksamkeit von LATIN-Prompt und LATIN-Tuning. Wir stellen den Quellcode im Supplement bereit und werden ihn zur Förderung zukünftiger Forschung veröffentlichen.