LAMBERT: Layout-orientierte (Sprach-)Modellierung für die Informationsgewinnung

Wir stellen einen einfachen neuen Ansatz zur Lösung des Problems der Dokumentverstehens vor, bei dem eine nichttriviale Layoutstruktur die lokale Semantik beeinflusst. Hierzu modifizieren wir die Transformer-Encoder-Architektur derart, dass sie Layout-Features aus einem OCR-System nutzen kann, ohne dass die Sprachsemantik von Grund auf neu gelernt werden muss. Wir ergänzen lediglich die Eingabe des Modells um die Koordinaten der Token-Bounding-Boxes, wodurch der Einsatz roher Bilder entfällt. Dadurch entsteht ein layoutbewusstes Sprachmodell, das anschließend für Aufgaben im downstream-Bereich fine-tuned werden kann.Das Modell wird auf einer end-to-end-Informationsextraktionsaufgabe anhand vier öffentlich verfügbarer Datensätze evaluiert: Kleister NDA, Kleister Charity, SROIE und CORD. Wir zeigen, dass unser Modell auf Dokumenten mit visuell reichhaltigem Layout eine überlegene Leistung erzielt und zudem die Baseline-RoBERTa auf Dokumenten mit flachem Layout übertrifft (F₁-Anstieg bei NDA von 78,50 auf 80,42). Unsere Lösung erreichte die erste Platzierung auf dem öffentlichen Leaderboard für die Schlüsselinformationsextraktion im SROIE-Datensatz und verbesserte den bisherigen SOTA-F₁-Score von 97,81 auf 98,17.