HyperAIHyperAI

Command Palette

Search for a command to run...

KOHTD : Jeu de données Kazakh de texte manuscrit en mode hors ligne

Nazgul Toiganbayeva Mahmoud Kasem Galymzhan Abdimanap Kairat Bostanbekov Abdelrahman Abdallah Anel Alimova Daniyar Nurseitov

Résumé

Malgré le passage à l’échange numérique des informations, de nombreux documents — tels que les factures, les déclarations fiscales, les courriers internes, les questionnaires, les données historiques ou les réponses aux épreuves d’examen — nécessitent encore des saisies manuscrites. À cet égard, il est essentiel de mettre en œuvre la reconnaissance du texte manuscrit (Handwritten Text Recognition, HTR), une méthode automatisée permettant de décrypter des documents à l’aide d’un système informatique. La reconnaissance de l’écriture manuscrite reste un défi majeur en raison du nombre quasi infini de façons dont une même phrase peut être écrite. Dans cette étude, nous proposons une recherche sur la reconnaissance du texte manuscrit kazakh, dont la réalisation repose sur la nécessité d’un jeu de données exhaustif. Ce besoin est particulièrement pressant compte tenu de l’absence actuelle de tout jeu de données dédié au texte manuscrit kazakh. Dans cet article, nous présentons notre propre jeu de données, le Kazakh Offline Handwritten Text Dataset (KOHTD), comprenant 3 000 copies d’examens manuscrits, plus de 140 335 images segmentées, et environ 922 010 symboles. Ce jeu de données s’adresse aux chercheurs travaillant sur les tâches de reconnaissance d’écriture manuscrite à l’aide d’algorithmes de machine learning et d’apprentissage profond. Nous avons appliqué plusieurs méthodes courantes de reconnaissance de texte, notamment celles basées sur CTC (Connectionist Temporal Classification) et les mécanismes d’attention, pour la reconnaissance de mots et de lignes. Les résultats démontrent la diversité et la richesse du jeu de données KOHTD. Par ailleurs, nous avons développé un algorithme génétique (GA) pour la segmentation des lignes et des mots, fondé sur une énumération aléatoire de paramètres. Le jeu de données et le code de l’algorithme génétique sont disponibles à l’adresse suivante : https://github.com/abdoelsayed2016/KOHTD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp