SUT : un nouveau jeu de données synthétiques polyvalent pour l’analyse d’images de documents en farsi
Ce document présente un nouveau jeu de données à grande échelle dédié aux images de documents en persan, nommé SUT, conçu pour relever les défis liés à l’acquisition de données de référence diversifiées et abondantes nécessaires aux modèles supervisés dans les tâches d’analyse d’images de documents (DIA), telles que la classification d’images de documents, la détection et la reconnaissance de texte, ainsi que l’extraction d’informations. Le jeu de données comprend 62 453 images réparties en 21 classes distinctes, incluant des documents d’identité dont les informations personnelles sont générées de manière synthétique et superposées sur divers arrière-plans. Il inclut également des fichiers de balisage associés aux images. Les données de référence sont organisées dans des fichiers CSV contenant les chemins d’accès des images et les informations correspondantes sur les données intégrées. Pour démontrer l’efficacité du jeu de données SUT dans les tâches DIA, il a été utilisé pour la classification de documents (atteignant une précision de 86 % avec un réseau de neurones convolutif) et pour la reconnaissance optique de caractères (CER de 0,083 et 0,072 obtenus respectivement avec les moteurs Tesseract et EasyOCR). Le jeu de données SUT constitue une ressource précieuse pour les chercheurs souhaitant développer et évaluer des modèles supervisés dans le domaine de l’analyse des images de documents en persan.