PEneo: Vereinheitlichung der Linienextraktion, Liniengruppierung und Entitätsverknüpfung für die End-to-End-Dokumentenpaarextraktion

Die Extraktion von Dokumentenpaaren zielt darauf ab, Schlüssel- und Wertentitäten sowie ihre Beziehungen aus visuell reichhaltigen Dokumenten zu identifizieren. Die meisten existierenden Methoden teilen diesen Prozess in zwei getrennte Aufgaben auf: die semantische Entitätserkennung (SER) und die Beziehungsextraktion (RE). Allerdings kann die einfache Hintereinanderausführung von SER und RE zu schwerwiegenden Fehlervorträgen führen und schlägt bei Fällen wie mehrzeilige Entitäten in realistischen Szenarien fehl. Um diese Probleme zu lösen, stellt dieses Papier einen neuen Framework namens PEneo (Pair Extraction new decoder option) vor, der die Dokumentenpaarextraktion in einem einheitlichen Pipeline durchführt und dabei drei gleichzeitig laufende Unterprozesse integriert: Zeilenextraktion, Zeilengruppierung und Entitätsverknüpfung. Dieser Ansatz verringert das Problem der Fehlerakkumulation und kann den Fall mehrzeiliger Entitäten bewältigen. Darüber hinaus, um die Leistung des Modells besser zu evaluieren und zukünftige Forschungen zur Paarextraktion zu erleichtern, stellen wir RFUND vor, eine neu annotierte Version der häufig verwendeten FUNSD- und XFUND-Datensätze, um deren Genauigkeit zu erhöhen und realistische Situationen abzudecken. Experimente an verschiedenen Benchmarks zeigen PEneos Überlegenheit gegenüber früheren Pipelines, wobei es bei Kombination mit verschiedenen Backbones wie LiLT und LayoutLMv3 eine erhebliche Leistungssteigerung erreicht (z.B. 19,89%-22,91% F1-Score auf RFUND-EN), was seine Effektivität und Allgemeingültigkeit unterstreicht. Der Code und die neuen Annotationen sind unter https://github.com/ZeningLin/PEneo verfügbar.