vor 17 Tagen

DocFormerv2: Lokale Merkmale für die Dokumentenverarbeitung

Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha

Abstract

Wir stellen DocFormerv2 vor, einen multimodalen Transformer für die Visual Document Understanding (VDU). Der VDU-Bereich umfasst das Verständnis von Dokumenten über reine OCR-Vorhersagen hinaus, beispielsweise die Informationsextraktion aus Formularen, VQA für Dokumente und weitere Aufgaben. Die VDU-Aufgabe ist herausfordernd, da ein Modell in der Lage sein muss, mehrere Modalitäten (visuell, sprachlich und räumlich) zu verarbeiten, um präzise Vorhersagen zu treffen. Unser Ansatz, DocFormerv2 genannt, ist ein Encoder-Decoder-Transformer, der visuelle, sprachliche und räumliche Merkmale als Eingabe erhält. DocFormerv2 wird mit unsupervisierten Aufgaben vortrainiert, die asymmetrisch eingesetzt werden: zwei neuartige Dokumentenaufgaben werden auf dem Encoder und eine auf dem autoregressiven Decoder angewandt. Die unsupervisierten Aufgaben wurden sorgfältig entworfen, um sicherzustellen, dass der Vortrainierung eine lokale Merkmalsausrichtung zwischen den verschiedenen Modalitäten gefördert wird. Bei der Evaluierung auf neun Datensätzen erreicht DocFormerv2 Spitzenleistungen gegenüber starken Baselines, beispielsweise +4,3 % bei TabFact, +1,4 % bei InfoVQA und +1 % bei FUNSD. Um die Generalisierungsfähigkeit zu demonstrieren, übertrifft DocFormerv2 auf drei VQA-Aufgaben mit Szenentext vergleichbare Modelle gleicher Größe und erzielt sogar bessere Ergebnisse als deutlich größere Modelle (wie GIT2, PaLi und Flamingo) bei einigen Aufgaben. Umfassende Ablationsstudien zeigen, dass DocFormerv2 aufgrund seines Vortrainings mehrere Modalitäten im VDU-Bereich besser versteht als vorherige state-of-the-art-Modelle.