HyperAIHyperAI

Command Palette

Search for a command to run...

DocFormerv2: Lokale Merkmale für die Dokumentenverarbeitung

Srikar Appalaraju Peng Tang Qi Dong Nishant Sankaran Yichu Zhou R. Manmatha

Zusammenfassung

Wir stellen DocFormerv2 vor, einen multimodalen Transformer für die Visual Document Understanding (VDU). Der VDU-Bereich umfasst das Verständnis von Dokumenten über reine OCR-Vorhersagen hinaus, beispielsweise die Informationsextraktion aus Formularen, VQA für Dokumente und weitere Aufgaben. Die VDU-Aufgabe ist herausfordernd, da ein Modell in der Lage sein muss, mehrere Modalitäten (visuell, sprachlich und räumlich) zu verarbeiten, um präzise Vorhersagen zu treffen. Unser Ansatz, DocFormerv2 genannt, ist ein Encoder-Decoder-Transformer, der visuelle, sprachliche und räumliche Merkmale als Eingabe erhält. DocFormerv2 wird mit unsupervisierten Aufgaben vortrainiert, die asymmetrisch eingesetzt werden: zwei neuartige Dokumentenaufgaben werden auf dem Encoder und eine auf dem autoregressiven Decoder angewandt. Die unsupervisierten Aufgaben wurden sorgfältig entworfen, um sicherzustellen, dass der Vortrainierung eine lokale Merkmalsausrichtung zwischen den verschiedenen Modalitäten gefördert wird. Bei der Evaluierung auf neun Datensätzen erreicht DocFormerv2 Spitzenleistungen gegenüber starken Baselines, beispielsweise +4,3 % bei TabFact, +1,4 % bei InfoVQA und +1 % bei FUNSD. Um die Generalisierungsfähigkeit zu demonstrieren, übertrifft DocFormerv2 auf drei VQA-Aufgaben mit Szenentext vergleichbare Modelle gleicher Größe und erzielt sogar bessere Ergebnisse als deutlich größere Modelle (wie GIT2, PaLi und Flamingo) bei einigen Aufgaben. Umfassende Ablationsstudien zeigen, dass DocFormerv2 aufgrund seines Vortrainings mehrere Modalitäten im VDU-Bereich besser versteht als vorherige state-of-the-art-Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DocFormerv2: Lokale Merkmale für die Dokumentenverarbeitung | Paper | HyperAI