HKR 手写文本识别数据集

日期

1 年前

机构

Satbayev University

发布地址

github.com

许可协议

其他

下载帮助
特色图像

HKR 全称 Handwritten Kazakh and Russian,是关于离线手写文本识别的俄语和哈萨克语表格数据集(约 95% 的俄语和 5% 的哈萨克语)。包含 1,400 多个已填写表格、 63,000 个句子、 715,699 多个字符和 200 位作者。表格由 LATEX 生成,其内容由作者手写。该数据集用 Cyrillic 语言书写,共享 33 个相同的字符。除了这些字符,哈萨克语言的字母还包含 9 个额外的特定字符。

该数据集涉及的内容:

  • 哈萨克语和俄语(地区、城市、乡村等)关键字的手写样本/表格
  • 采用 Cyrillic 手写的俄语和哈萨克语样本
  • 俄语诗歌的手写样本/表格