BROS: Ein vortrainiertes Sprachmodell mit Fokus auf Text und Layout zur verbesserten Extraktion Schlüsselinformationen aus Dokumenten

Die Extraktion zentraler Informationen (Key Information Extraction, KIE) aus Dokumentabbildungen erfordert ein tiefes Verständnis der kontextuellen und räumlichen Semantik von Texten im zweidimensionalen (2D) Raum. Viele aktuelle Studien versuchen, diese Aufgabe durch die Entwicklung vortrainierter Sprachmodelle zu lösen, die visuelle Merkmale aus Dokumentabbildungen mit Texten und deren Layout kombinieren. Im Gegensatz dazu geht dieser Artikel einen Schritt zurück zu den Grundlagen: der effektiven Kombination von Text und Layout. Konkret stellen wir ein vortrainiertes Sprachmodell namens BROS (BERT Relying On Spatiality) vor, das relative Positionen von Texten im 2D-Raum kodiert und aus unbeschrifteten Dokumenten mit einer Bereichs-Masking-Strategie lernt. Durch diese optimierte Trainingsstrategie zur Verarbeitung von Texten im 2D-Raum erreicht BROS vergleichbare oder bessere Leistung als bisherige Methoden auf vier KIE-Benchmarks (FUNSD, SROIE*, CORD und SciTSR), ohne auf visuelle Merkmale angewiesen zu sein. Zudem werden zwei praktische Herausforderungen im Bereich KIE identifiziert: (1) die Minimierung von Fehlern durch falsche Textreihenfolge und (2) die effiziente Lernfähigkeit bei nur wenigen Downstream-Beispielen. Die Ergebnisse zeigen die Überlegenheit von BROS gegenüber früheren Ansätzen. Der Quellcode ist unter https://github.com/clovaai/bros verfügbar.