UTRNet: Hochauflösende Erkennung von Urdu-Text in gedruckten Dokumenten

In diesem Paper stellen wir einen neuartigen Ansatz zur Bewältigung der Herausforderungen der maschinellen Erkennung gedruckter urdu-sprachiger Texte mittels hochauflösender, mehrskaliger semantischer Merkmalsextraktion vor. Unsere vorgeschlagene UTRNet-Architektur, ein hybrider CNN-RNN-Modell, zeigt state-of-the-art-Leistung auf Benchmark-Datensätzen. Um die Beschränkungen vorheriger Arbeiten zu überwinden, die Schwierigkeiten haben, sich den Feinheiten des Urdu-Schriftsystems anzupassen und aufgrund des Mangels an ausreichend annotierten realen Daten schlecht generalisieren, führen wir UTRSet-Real ein – einen großskaligen, annotierten Datensatz aus realen Umgebungen mit über 11.000 Textzeilen – sowie UTRSet-Synth, einen synthetischen Datensatz mit 20.000 Zeilen, der realen Bedingungen nahekommt und Korrekturen an den Ground-Truth-Markierungen des bestehenden IIITH-Datensatzes vorgenommen hat, wodurch dieser zu einer zuverlässigere Grundlage für zukünftige Forschung wird. Zudem präsentieren wir UrduDoc, einen Benchmark-Datensatz für die Erkennung von Textzeilen in gescannten urdu-sprachigen Dokumenten. Darüber hinaus haben wir ein Online-Tool zur end-to-end-OCR von gedruckten urdu-sprachigen Dokumenten entwickelt, indem wir UTRNet mit einem Textdetektionsmodell integriert haben. Unser Werk adressiert nicht nur die aktuellen Limitationen der urdu-OCR, sondern ebnet auch den Weg für zukünftige Forschung in diesem Bereich und trägt zur kontinuierlichen Weiterentwicklung der urdu-sprachigen OCR-Technologie bei. Die Projektseite mit Quellcode, Datensätzen, Annotationen, trainierten Modellen und dem Online-Tool ist unter abdur75648.github.io/UTRNet verfügbar.