BN-HTRd: Ein Benchmark-Datensatz für die offline bangalische Handschriftenerkennung (HTR) und Zeilensegmentierung auf Dokumentebene

Wir stellen einen neuen Datensatz für die Offline-Handschriftenerkennung (HTR) vor, der auf Bildern von Bengali-Schriften basiert und Wörter-, Zeilen- und Dokumentenannotations enthält. Der BN-HTRd-Datensatz stützt sich auf den BBC Bengali News-Korpus und dient als Grundwahrheitstext. Diese Texte wurden anschließend verwendet, um Annotationen zu generieren, die von Personen mit ihrer Handschrift ausgefüllt wurden. Unser Datensatz umfasst 788 Bilder von handschriftlich erstellten Seiten, die von etwa 150 verschiedenen Schreibern produziert wurden. Er kann als Basis für verschiedene Handschriftenerkennungsaufgaben wie End-to-End-Dokumentenerkennung, Worterkennung, Wortschneidung oder Zeilenschneidung eingesetzt werden.Darüber hinaus schlagen wir ein Verfahren zur Segmentierung bengalischer handschriftlicher Dokumentbilder in entsprechende Zeilen ohne überwachtes Lernen vor. Unser Ansatz zur Zeilensegmentierung berücksichtigt die Variabilität verschiedener Schreibstile und segmentiert komplex gekrümmte Textzeilen präzise. Neben einer Reihe von Vorverarbeitungs- und morphologischen Operationen wurden sowohl die Hough-Linien- als auch die Hough-Kreistransformation zur Unterscheidung verschiedener linearer Komponenten eingesetzt. Um diese Komponenten in ihre entsprechenden Zeilen zu ordnen, wendeten wir eine Clustermethode ohne überwachtes Lernen an. Der durchschnittliche Erfolg unserer Segmentierungstechnik beträgt 81,57 % gemessen an FM-Metrik (ähnlich dem F-Maß) mit einem mittleren Durchschnittswert der Präzision (mean Average Precision, mAP) von 0,547.