Muharaf 数据集是一个专注于手写阿拉伯文识别的机器学习数据集,由 Mehreen Saeed 等人于 2024 年创建,相关论文成果为「Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition」,已被 NeurIPS 24 接受。这个数据集包含了超过 1.6k 张历史手写页面图像,这些图像由档案阿拉伯语专家转录。每张文档图像都伴随着其文本行的空间多边形坐标以及基本页面元素的信息。 Muharaf 数据集的构建旨在推进手写文本识别 (HTR) 领域的技术进步,不仅针对阿拉伯文手稿,也适用于连体文本的识别。
该数据集包含多样化的书写风格和广泛的文档类型,包括个人信件、日记、笔记、诗歌、教堂记录和法律信函等。在研究论文中,作者描述了数据获取流程、数据集的显著特点和统计信息,并提供了使用这些数据训练卷积神经网络所得到的初步基线结果。
Muharaf 数据集分为两部分:公开部分包含 1,216 张图像,并且在 CC BY-NC-SA 4.0 许可下分发;受限部分包含 428 张图像,根据专有许可分发,只能通过联系 Phoenix Center for Lebanese Studies 的 Carlos Younes 来下载,这部分数据仅用于研究目的,并且不允许重新分发。此外,Muharaf 数据集使用了 ScribeArabic 注释软件来创建,该软件的手册可以帮助用户了解其工作原理。数据集中的图像文件以及相应的注释、转录和标记都可以使用 PAGE-XML 查看器来查看。
做种 1
下载中 0
已完成 9
总下载 31