HyperAIHyperAI

Command Palette

Search for a command to run...

SUT: ein neuer vielseitig einsetzbarer synthetischer Datensatz für die Analyse von Farsi-Dokumentenbildern

Hossein Nezamabadi-pour Ali Afkari Fahandari Fatemeh sadat Eslami Elham Shabaninia

Zusammenfassung

Diese Arbeit stellt ein neues großskaliges Datenset für persische Dokumentabbildungen vor, das als SUT bezeichnet wird und darauf abzielt, die Herausforderungen zu bewältigen, die mit der Beschaffung vielfältiger und umfangreicher Ground-Truth-Daten für überwachte Modelle in Aufgaben der Dokumentabbildungsanalyse (Document Image Analysis, DIA) verbunden sind, wie beispielsweise Dokumentklassifikation, Texterkennung und -detektion sowie Informationsabfrage. Das Datenset umfasst 62.453 Bilder, die in 21 verschiedene Klassen eingeteilt wurden, darunter Identitätsdokumente mit synthetisch generierten persönlichen Informationen, die auf verschiedenen Hintergründen überlagert wurden. Zusätzlich enthalten die Datensätze entsprechende Dateien mit Beschriftungsinformationen zu den Bildern. Die Ground-Truth-Daten sind in CSV-Dateien organisiert, die die vollständigen Pfade zu den Bilddateien sowie zugehörige Informationen zu den eingebetteten Daten enthalten. Um die Wirksamkeit des SUT-Datensets in DIA-Aufgaben zu demonstrieren, wurde es für die Dokumentklassifikation eingesetzt (Erreichen einer Genauigkeit von 86 % mittels eines Faltungsneuronalen Netzes) und für die OCR (Erreichen eines Character Error Rate (CER) von 0,083 mit Tesseract und 0,072 mit EasyOCR). Das SUT-Datenset stellt eine wertvolle Ressource für Forscher dar, die an der Entwicklung und Evaluation überwachter Modelle in der Analyse persischer Dokumentabbildungen interessiert sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SUT: ein neuer vielseitig einsetzbarer synthetischer Datensatz für die Analyse von Farsi-Dokumentenbildern | Paper | HyperAI