HyperAIHyperAI

Command Palette

Search for a command to run...

BROS: Ein vortrainiertes Sprachmodell mit Fokus auf Text und Layout zur verbesserten Extraktion Schlüsselinformationen aus Dokumenten

Teakgyu Hong Donghyun Kim Mingi Ji Wonseok Hwang Daehyun Nam Sungrae Park

Zusammenfassung

Die Extraktion zentraler Informationen (Key Information Extraction, KIE) aus Dokumentabbildungen erfordert ein tiefes Verständnis der kontextuellen und räumlichen Semantik von Texten im zweidimensionalen (2D) Raum. Viele aktuelle Studien versuchen, diese Aufgabe durch die Entwicklung vortrainierter Sprachmodelle zu lösen, die visuelle Merkmale aus Dokumentabbildungen mit Texten und deren Layout kombinieren. Im Gegensatz dazu geht dieser Artikel einen Schritt zurück zu den Grundlagen: der effektiven Kombination von Text und Layout. Konkret stellen wir ein vortrainiertes Sprachmodell namens BROS (BERT Relying On Spatiality) vor, das relative Positionen von Texten im 2D-Raum kodiert und aus unbeschrifteten Dokumenten mit einer Bereichs-Masking-Strategie lernt. Durch diese optimierte Trainingsstrategie zur Verarbeitung von Texten im 2D-Raum erreicht BROS vergleichbare oder bessere Leistung als bisherige Methoden auf vier KIE-Benchmarks (FUNSD, SROIE*, CORD und SciTSR), ohne auf visuelle Merkmale angewiesen zu sein. Zudem werden zwei praktische Herausforderungen im Bereich KIE identifiziert: (1) die Minimierung von Fehlern durch falsche Textreihenfolge und (2) die effiziente Lernfähigkeit bei nur wenigen Downstream-Beispielen. Die Ergebnisse zeigen die Überlegenheit von BROS gegenüber früheren Ansätzen. Der Quellcode ist unter https://github.com/clovaai/bros verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BROS: Ein vortrainiertes Sprachmodell mit Fokus auf Text und Layout zur verbesserten Extraktion Schlüsselinformationen aus Dokumenten | Paper | HyperAI