KOHTD: 카자흐스탄 오프라인 수기 텍스트 데이터셋

디지털 정보 교환으로의 전환에도 불구하고, 송장, 세금 문서, 메모, 설문지, 역사적 데이터, 시험 문제의 응답과 같은 많은 문서는 여전히 수기 입력을 필요로 한다. 이러한 맥락에서 컴퓨터를 활용해 기록을 자동으로 해독할 수 있는 수기 텍스트 인식(Handwritten Text Recognition, HTR) 기술의 구현이 시급하다. 수기 인식은 동일한 메시지를 사람마다 거의 무한한 방식으로 작성할 수 있기 때문에 도전적인 과제이다. 본 연구에서는 카자흐어 수기 텍스트 인식 연구를 위한 포괄적인 데이터셋이 필수적임을 제안한다. 특히 카자흐어 수기 텍스트에 대한 데이터셋이 부족한 상황을 고려할 때 이는 더욱 중요하다. 본 논문에서는 3,000장의 수기 시험지와 140,335개 이상의 분할된 이미지, 약 922,010개의 문자를 포함하는 광범위한 카자흐어 오프라인 수기 텍스트 데이터셋(Kazakh Offline Handwritten Text Dataset, KOHTD)을 제안한다. 이 데이터셋은 딥러닝 및 기계학습 기반의 수기 인식 연구에 유용하게 활용될 수 있다. 연구에서는 CTC 기반 및 어텐션 기반의 다양한 인기 있는 텍스트 인식 방법을 활용하여 단어 및 줄 단위 인식을 수행하였다. 결과적으로 KOHTD가 높은 다양성을 지닌다는 점이 입증되었다. 또한, 매개변수의 무작위 탐색 기반으로 줄 및 단어 분할을 위한 유전 알고리즘(Genetic Algorithm, GA)을 제안하였다. 데이터셋 및 GA 코드는 https://github.com/abdoelsayed2016/KOHTD 에 공개되어 있다.