PingAn-VCGroup's Lösung für den ICDAR 2021 Wettbewerb zur Analyse wissenschaftlicher Literatur, Aufgabe B: Tabellenerkennung zu HTML

Dieses Papier präsentiert unsere Lösung für die ICDAR 2021 Wettbewerbsaufgabe zur Verarbeitung wissenschaftlicher Literatur, Task B: Tabellenerkennung und Konvertierung in HTML. In unserer Methode gliedern wir die Aufgabe der Tabelleninhalts-Erkennung in vier Teilprobleme: Tabellestrukturerkennung, Textzeilen-Detektion, Textzeilen-Erkennung und Kastenzuordnung. Unser Algorithmus zur Tabellestrukturerkennung basiert auf einer angepassten Version von MASTER [1], einem robusten Bildtext-Erkennungsverfahren. PSENet [2] wird verwendet, um jede Textzeile im Tabellenbild zu detektieren. Für die Textzeilen-Erkennung bauen wir unser Modell ebenfalls auf MASTER auf. Schließlich ordnen wir in der Phase der Kastenzuordnung die durch PSENet detektierten Textfelder den durch die Tabellestrukturerkennung rekonstruierten Strukturkomponenten zu und füllen den erkannten Textinhalt in das entsprechende Element ein. Unsere vorgeschlagene Methode erreicht einen TEDS-Score von 96,84 % bei 9.115 Validierungsbeispielen in der Entwicklungsphase und einen TEDS-Score von 96,32 % bei 9.064 Beispielen in der abschließenden Evaluierungsphase.