BN-DRISHTI: Bangla-Dokumentenerkennung durch instanzbasierte Segmentierung von handschriftlichen Textbildern

Die Erkennung von Handschrift stellt für einige der am häufigsten gesprochenen Sprachen, wie Bangla, aufgrund der Komplexität der Zeilen- und Wortsegmentierung, die durch die kurvilineare Natur der Schreibweise und den Mangel an qualitativ hochwertigen Datensätzen verursacht wird, eine Herausforderung dar. Dieses Papier löst das Segmentierungsproblem durch die Einführung einer neuesten Methode (BN-DRISHTI), die ein objekterkennendes Framework basierend auf tiefem Lernen (YOLO) mit Hough-Transformation und affiner Transformation zur Korrektur von Schrägstellungen kombiniert. Das Training von Modellen des tiefen Lernens erfordert jedoch eine enorme Datenmenge. Daher präsentieren wir auch eine erweiterte Version des BN-HTRd-Datensatzes, der 786 vollständige Seiten mit handschriftlichen Bangla-Dokumentbildern, Annotationen auf Zeilen- und Wortsiveau für die Segmentierung sowie entsprechende Grundwahrheiten für die Worderkennung umfasst. Die Auswertung am Testanteil unseres Datensatzes ergab einen F-Wert von 99,97 % für die Zeilensegmentierung und 98 % für die Wortsegmentierung. Für eine vergleichende Analyse verwendeten wir drei externe Datensätze mit handschriftlichem Bangla, nämlich BanglaWriting, WBSUBNdb_text und ICDAR 2013, bei denen unser System um einen beträchtlichen Vorsprung überlegen war. Dies unterstreicht weiterhin die Leistungsfähigkeit unserer Methode bei vollständig unbekannten Stichproben.