SUT: ein neuer vielseitig einsetzbarer synthetischer Datensatz für die Analyse von Farsi-Dokumentenbildern
Diese Arbeit stellt ein neues großskaliges Datenset für persische Dokumentabbildungen vor, das als SUT bezeichnet wird und darauf abzielt, die Herausforderungen zu bewältigen, die mit der Beschaffung vielfältiger und umfangreicher Ground-Truth-Daten für überwachte Modelle in Aufgaben der Dokumentabbildungsanalyse (Document Image Analysis, DIA) verbunden sind, wie beispielsweise Dokumentklassifikation, Texterkennung und -detektion sowie Informationsabfrage. Das Datenset umfasst 62.453 Bilder, die in 21 verschiedene Klassen eingeteilt wurden, darunter Identitätsdokumente mit synthetisch generierten persönlichen Informationen, die auf verschiedenen Hintergründen überlagert wurden. Zusätzlich enthalten die Datensätze entsprechende Dateien mit Beschriftungsinformationen zu den Bildern. Die Ground-Truth-Daten sind in CSV-Dateien organisiert, die die vollständigen Pfade zu den Bilddateien sowie zugehörige Informationen zu den eingebetteten Daten enthalten. Um die Wirksamkeit des SUT-Datensets in DIA-Aufgaben zu demonstrieren, wurde es für die Dokumentklassifikation eingesetzt (Erreichen einer Genauigkeit von 86 % mittels eines Faltungsneuronalen Netzes) und für die OCR (Erreichen eines Character Error Rate (CER) von 0,083 mit Tesseract und 0,072 mit EasyOCR). Das SUT-Datenset stellt eine wertvolle Ressource für Forscher dar, die an der Entwicklung und Evaluation überwachter Modelle in der Analyse persischer Dokumentabbildungen interessiert sind.