HyperAIHyperAI
il y a 9 jours

KOHTD : Jeu de données Kazakh de texte manuscrit en mode hors ligne

Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov
KOHTD : Jeu de données Kazakh de texte manuscrit en mode hors ligne
Résumé

Malgré le passage à l’échange numérique des informations, de nombreux documents — tels que les factures, les déclarations fiscales, les courriers internes, les questionnaires, les données historiques ou les réponses aux épreuves d’examen — nécessitent encore des saisies manuscrites. À cet égard, il est essentiel de mettre en œuvre la reconnaissance du texte manuscrit (Handwritten Text Recognition, HTR), une méthode automatisée permettant de décrypter des documents à l’aide d’un système informatique. La reconnaissance de l’écriture manuscrite reste un défi majeur en raison du nombre quasi infini de façons dont une même phrase peut être écrite. Dans cette étude, nous proposons une recherche sur la reconnaissance du texte manuscrit kazakh, dont la réalisation repose sur la nécessité d’un jeu de données exhaustif. Ce besoin est particulièrement pressant compte tenu de l’absence actuelle de tout jeu de données dédié au texte manuscrit kazakh. Dans cet article, nous présentons notre propre jeu de données, le Kazakh Offline Handwritten Text Dataset (KOHTD), comprenant 3 000 copies d’examens manuscrits, plus de 140 335 images segmentées, et environ 922 010 symboles. Ce jeu de données s’adresse aux chercheurs travaillant sur les tâches de reconnaissance d’écriture manuscrite à l’aide d’algorithmes de machine learning et d’apprentissage profond. Nous avons appliqué plusieurs méthodes courantes de reconnaissance de texte, notamment celles basées sur CTC (Connectionist Temporal Classification) et les mécanismes d’attention, pour la reconnaissance de mots et de lignes. Les résultats démontrent la diversité et la richesse du jeu de données KOHTD. Par ailleurs, nous avons développé un algorithme génétique (GA) pour la segmentation des lignes et des mots, fondé sur une énumération aléatoire de paramètres. Le jeu de données et le code de l’algorithme génétique sont disponibles à l’adresse suivante : https://github.com/abdoelsayed2016/KOHTD.

KOHTD : Jeu de données Kazakh de texte manuscrit en mode hors ligne | Articles de recherche récents | HyperAI