HKR 手写文本识别数据集

HKR 全称 Handwritten Kazakh and Russian,是关于离线手写文本识别的俄语和哈萨克语表格数据集(约 95% 的俄语和 5% 的哈萨克语)。包含 1,400 多个已填写表格、 63,000 个句子、 715,699 多个字符和 200 位作者。表格由 LATEX 生成,其内容由作者手写。该数据集用 Cyrillic 语言书写,共享 33 个相同的字符。除了这些字符,哈萨克语言的字母还包含 9 个额外的特定字符。
该数据集涉及的内容:
- 哈萨克语和俄语(地区、城市、乡村等)关键字的手写样本/表格
- 采用 Cyrillic 手写的俄语和哈萨克语样本
- 俄语诗歌的手写样本/表格