2 个月前

BN-HTRd:一种用于孟加拉语离线文档级手写文本识别(HTR)和行分割的基准数据集

Rahman, Md. Ataur ; Tabassum, Nazifa ; Paul, Mitu ; Pal, Riya ; Islam, Mohammad Khairul
BN-HTRd:一种用于孟加拉语离线文档级手写文本识别(HTR)和行分割的基准数据集
摘要

我们介绍了一个新的离线手写文本识别(HTR)数据集,该数据集包含孟加拉文单词、行和文档级别的注释。BN-HTRd 数据集基于 BBC 孟加拉文新闻语料库,旨在作为真实文本的基础。这些文本随后被用于生成由人们手写填写的注释。我们的数据集包括约 150 名不同书写者产生的 788 张手写页面图像。该数据集可以作为各种手写分类任务的基础,例如端到端文档识别、词查找、词或行分割等。我们还提出了一种无监督的方法来将孟加拉文手写文档图像分割为相应的行。我们的行分割方法考虑了不同书写风格的变异性,能够准确地分割出具有曲线性质的复杂手写文本行。除了进行一系列预处理和形态学操作外,我们还采用了霍夫直线变换和霍夫圆变换来区分不同的线性组件。为了将这些组件排列到相应的行中,我们采用了一种无监督聚类方法。我们的分割技术在 FM 指标(类似于 F 值)上的平均成功率为 81.57%,平均精度均值(mAP)为 0.547。