DocTr: Document Transformer für die strukturierte Informationsextraktion in Dokumenten

Wir präsentieren eine neue Formulierung für die strukturierte Informationsextraktion (SIE) aus visuell reichhaltigen Dokumenten. Diese Formulierung soll die Einschränkungen bestehender IOB-Tagging- oder graphbasierter Ansätze überwinden, die entweder stark von der korrekten Reihenfolge des Eingabetexts abhängig sind oder Schwierigkeiten haben, einen komplexen Graphen zu dekodieren. Inspiriert durch anchor-basierte Objekterkennungssysteme im Bereich der Bildverarbeitung, stellen wir eine Entität als ein Ankerwort und ein Begrenzungsrechteck dar und modellieren das Verknüpfen von Entitäten als Assoziation zwischen Ankerwörtern. Dies ist robuster gegenüber der Textreihenfolge und ermöglicht es, einen kompakten Graphen für das Verknüpfen von Entitäten aufrechtzuerhalten. Die Formulierung motiviert uns, 1) den DOCument TRansformer (DocTr) einzuführen, der darauf abzielt, Entitätsbegrenzungsrechtecke in visuell reichhaltigen Dokumenten zu erkennen und zu verknüpfen, sowie 2) eine einfache Vortrainingsstrategie, die das Lernen der Entitätsdetektion im Kontext von Sprache unterstützt. Auswertungen anhand dreier SIE-Benchmarks zeigen die Effektivität der vorgeschlagenen Formulierung, wobei der insgesamt angewandte Ansatz bestehende Lösungen übertrifft.