9 天前

KOHTD:哈萨克语离线手写文本数据集

Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov
KOHTD:哈萨克语离线手写文本数据集
摘要

尽管信息交换已逐步转向数字化,但许多文档,如发票、税务文件、备忘录、问卷、历史资料以及考试答题内容,仍然需要手写输入。为此,亟需引入手写文本识别(Handwritten Text Recognition, HTR)技术,即通过计算机自动解析手写记录的自动化方法。手写识别面临巨大挑战,原因在于同一信息可被不同个体以几乎无限多样的方式书写。针对这一问题,本研究提出开展哈萨克语手写文本识别的相关研究,而构建一个全面的哈萨克语手写文本数据集尤为关键。尤其值得注意的是,目前尚缺乏可用于哈萨克语手写文本识别的公开数据集。为此,本文提出一个大规模的离线哈萨克语手写文本数据集——KOHTD(Kazakh Offline Handwritten Text Dataset),该数据集包含3000份手写考试试卷,超过140,335张分割后的图像样本,共计约922,010个字符。该数据集可为手写识别领域的研究人员提供丰富的资源,支持深度学习与机器学习方法的应用。在本研究中,我们采用了多种主流文本识别方法进行单词与行级识别,包括基于CTC(Connectionist Temporal Classification)和基于注意力机制(attention-based)的方法。实验结果表明,KOHTD数据集具有高度的多样性与代表性。此外,我们提出一种基于随机参数枚举的遗传算法(Genetic Algorithm, GA),用于实现文本行与单词的分割。目前,该数据集及GA算法的代码已开源,可访问GitHub获取:https://github.com/abdoelsayed2016/KOHTD。

KOHTD:哈萨克语离线手写文本数据集 | 最新论文 | HyperAI超神经