HyperAIHyperAI

Command Palette

Search for a command to run...

Layout- und Aufgabenbewusste Anweisungs-Prompt für zero-shot Dokumentbild-Fragebeantwortung

Wenjin Wang Yunhao Li Yixin Ou Yin Zhang

Zusammenfassung

Layout-aware vortrainierte Modelle haben erhebliche Fortschritte im Bereich der Dokumentbild-Fragenbeantwortung erzielt. Sie integrieren zusätzliche lernbare Module in bestehende Sprachmodelle, um Layout-Informationen innerhalb von Dokumentbildern aus den durch OCR-Tools ermittelten Text-Bounding-Box-Koordinaten zu erfassen. Allerdings erfordern diese zusätzlichen Module eine Vortrainierung auf umfangreichen Dokumentbild-Daten, wodurch diese Ansätze nicht direkt auf kommerziell erhältliche, instruktionsgetunte Sprachgrundmodelle zurückgreifen können, die in letzter Zeit vielversprechende Potenziale im Bereich des Zero-Shot-Lernens gezeigt haben. Stattdessen stellen wir in diesem Artikel fest, dass instruktionsgetunte Sprachmodelle wie Claude und ChatGPT Layout-Informationen durch Leerzeichen und Zeilenumbrüche verstehen können. Auf dieser Beobachtung aufbauend schlagen wir den LAyout and Task aware Instruction Prompt (LATIN-Prompt) vor, der aus einem layoutbewussten Dokumentinhalt und einer taskbewussten Anweisung besteht. Insbesondere verwendet der erste Teil geeignete Leerzeichen und Zeilenumbrüche, um die Layout-Informationen zwischen den durch OCR-Tools gewonnenen Textsegmenten wiederherzustellen, während der zweite Teil sicherstellt, dass die generierten Antworten den Formatierungsanforderungen entsprechen. Darüber hinaus führen wir die LAyout and Task aware Instruction Tuning (LATIN-Tuning) ein, um die Leistung kleiner instruktionsgetunter Modelle wie Alpaca zu verbessern. Experimentelle Ergebnisse zeigen, dass LATIN-Prompt die Zero-Shot-Leistung von Claude und ChatGPT auf einem Niveau bringt, das der Fine-Tuning-Leistung der derzeit besten Ansätze in der Dokumentbild-Fragenbeantwortung entspricht, während LATIN-Tuning die Zero-Shot-Leistung von Alpaca erheblich steigert. Beispielsweise verbessert LATIN-Prompt die Leistung von Claude und ChatGPT auf DocVQA um jeweils 263 % und 20 %. LATIN-Tuning steigert die Leistung von Alpaca auf DocVQA um 87,7 %. Quantitative und qualitative Analysen belegen die Wirksamkeit von LATIN-Prompt und LATIN-Tuning. Wir stellen den Quellcode im Supplement bereit und werden ihn zur Förderung zukünftiger Forschung veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp