PP-StructureV2: Ein leistungsfähigereres Dokumentanalyse-System

Ein großer Teil der Dokumentendaten existiert in unstrukturierten Formen, wie zum Beispiel rohe Bilder ohne Textinformationen. Die Entwicklung eines praktischen Systems zur Dokumentbildanalyse ist eine sinnvolle, aber herausfordernde Aufgabe. In früheren Arbeiten schlugen wir ein intelligentes Dokumentanalyse-System namens PP-Structure vor. Um die Funktion und Leistung von PP-Structure weiter zu verbessern, stellen wir in dieser Arbeit PP-StructureV2 vor, das zwei Unter-systeme umfasst: Layoutinformationsextraktion und Schlüsselinformationsextraktion.Zunächst integrieren wir Modul zur Richtungskorrektur von Bildern (Image Direction Correction) und Modul zur Layout-Wiederherstellung (Layout Restoration), um die Funktionalität des Systems zu erweitern. Zweitens setzen wir in PP-StructureV2 acht praktische Strategien ein, um die Leistung zu optimieren.Für das Layoutanalysemodell führen wir den ultraleichten Detektor PP-PicoDet sowie den Wissensdistillationsalgorithmus FGD ein, um das Modell leichter zu machen. Dies hat die Inferenzgeschwindigkeit um das 11-fache gesteigert, wobei der mAP vergleichbar blieb. Für das Tabellenerkennungsmodell nutzen wir PP-LCNet, CSP-PAN und SLAHead, um jeweils das Backbone-Modul, das Feature-Fusion-Modul und das Decoding-Modul zu optimieren. Dies führte zu einer Verbesserung der Tabellenstrukturgenauigkeit um 6 % bei vergleichbarer Inferenzgeschwindigkeit.Für das Modell zur Extraktion von Schlüsselinformationen führen wir VI-LayoutXLM ein, eine visuell-unabhängige Architektur des LayoutXLM, den TB-YX-Sortieralgorithmus sowie den U-DML-Wissensdistillationsalgorithmus. Diese Verbesserungen brachten jeweils eine Steigerung des Hmean bei den Aufgaben der semantischen Entitätserkennung und Relationsextraktion um 2,8 % und 9,1 %. Alle oben genannten Modelle und Codes sind im GitHub-Repository PaddleOCR als Open Source verfügbar.