LayoutLMv2: Mehrmodales Vortrainieren für die Verarbeitung visuell reicher Dokumente

Die Vortrainierung von Text und Layout hat sich bei einer Vielzahl von auf visuell reichen Dokumenten basierenden Verständnisaufgaben als effektiv erwiesen, dank ihrer leistungsfähigen Modellarchitektur und dem Vorteil großer Mengen an unbeschrifteten gescannten oder digital erstellten Dokumenten. Wir schlagen die Architektur LayoutLMv2 mit neuen Vortrainieraufgaben vor, um die Interaktion zwischen Text, Layout und Bild in einem einzigen multimodalen Framework zu modellieren. Insbesondere verwendet LayoutLMv2 einen zweistrahligen multimodalen Transformer-Encoder, der nicht nur die bestehende maskierte visuelle Sprachmodellierung, sondern auch neue Text-Bild-Ausrichtungs- und Text-Bild-Matching-Aufgaben einsetzt, die es ermöglichen, die intermodale Interaktion im Vortrainierungsstadium besser zu erfassen. Gleichzeitig integriert es einen raumbewussten Selbst-Aufmerksamkeitsmechanismus in die Transformer-Architektur, sodass das Modell die relativen positionellen Beziehungen zwischen verschiedenen Textblöcken vollständig verstehen kann. Die Experimentsergebnisse zeigen, dass LayoutLMv2 LayoutLM deutlich übertrifft und neue Stand-of-the-Art-Ergebnisse bei einer breiten Palette von nachgeschalteten Aufgaben zur Verarbeitung visuell reicher Dokumente erzielt, darunter FUNSD (0.7895 $\to$ 0.8420), CORD (0.9493 $\to$ 0.9601), SROIE (0.9524 $\to$ 0.9781), Kleister-NDA (0.8340 $\to$ 0.8520), RVL-CDIP (0.9443 $\to$ 0.9564) und DocVQA (0.7295 $\to$ 0.8672). Unser Modell und unser Code sind öffentlich zugänglich unter \url{https://aka.ms/layoutlmv2}.