HyperAIHyperAI

Command Palette

Search for a command to run...

UTRNet: Hochauflösende Erkennung von Urdu-Text in gedruckten Dokumenten

Abdur Rahman Arjun Ghosh Chetan Arora

Zusammenfassung

In diesem Paper stellen wir einen neuartigen Ansatz zur Bewältigung der Herausforderungen der maschinellen Erkennung gedruckter urdu-sprachiger Texte mittels hochauflösender, mehrskaliger semantischer Merkmalsextraktion vor. Unsere vorgeschlagene UTRNet-Architektur, ein hybrider CNN-RNN-Modell, zeigt state-of-the-art-Leistung auf Benchmark-Datensätzen. Um die Beschränkungen vorheriger Arbeiten zu überwinden, die Schwierigkeiten haben, sich den Feinheiten des Urdu-Schriftsystems anzupassen und aufgrund des Mangels an ausreichend annotierten realen Daten schlecht generalisieren, führen wir UTRSet-Real ein – einen großskaligen, annotierten Datensatz aus realen Umgebungen mit über 11.000 Textzeilen – sowie UTRSet-Synth, einen synthetischen Datensatz mit 20.000 Zeilen, der realen Bedingungen nahekommt und Korrekturen an den Ground-Truth-Markierungen des bestehenden IIITH-Datensatzes vorgenommen hat, wodurch dieser zu einer zuverlässigere Grundlage für zukünftige Forschung wird. Zudem präsentieren wir UrduDoc, einen Benchmark-Datensatz für die Erkennung von Textzeilen in gescannten urdu-sprachigen Dokumenten. Darüber hinaus haben wir ein Online-Tool zur end-to-end-OCR von gedruckten urdu-sprachigen Dokumenten entwickelt, indem wir UTRNet mit einem Textdetektionsmodell integriert haben. Unser Werk adressiert nicht nur die aktuellen Limitationen der urdu-OCR, sondern ebnet auch den Weg für zukünftige Forschung in diesem Bereich und trägt zur kontinuierlichen Weiterentwicklung der urdu-sprachigen OCR-Technologie bei. Die Projektseite mit Quellcode, Datensätzen, Annotationen, trainierten Modellen und dem Online-Tool ist unter abdur75648.github.io/UTRNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UTRNet: Hochauflösende Erkennung von Urdu-Text in gedruckten Dokumenten | Paper | HyperAI