HKR 필기 텍스트 인식 데이터 세트

HKR은 Handwritten Kazakh and Russian의 약자로, 오프라인 손으로 쓴 텍스트 인식을 위한 러시아어와 카자흐어 언어(러시아어 약 95%, 카자흐어 약 5%)의 표 형식 데이터 세트입니다. 1,400개 이상의 작성된 양식, 63,000개의 문장, 715,699개 이상의 문자, 200명의 작성자가 포함되어 있습니다. 표는 LATEX을 사용하여 생성되었으며, 표의 내용은 저자가 직접 작성했습니다. 이 데이터 세트는 키릴 문자로 작성되었으며 33개의 동일한 문자를 공유합니다. 이러한 문자 외에도 카자흐어 알파벳에는 9개의 특수 문자가 포함되어 있습니다.
데이터 세트에는 다음이 포함됩니다.
- 카자흐어와 러시아어로 작성된 키워드(지역, 도시, 마을 등)의 손으로 쓴 샘플/표
- 키릴 문자로 쓴 러시아어와 카자흐어 샘플
- 러시아 시를 위한 필기 샘플/양식