HyperAIHyperAI
il y a 2 mois

Évaluation des modèles Sequence-to-Sequence pour la reconnaissance du texte manuscrit

Johannes Michael; Roger Labahn; Tobias Grüning; Jochen Zöllner
Évaluation des modèles Sequence-to-Sequence pour la reconnaissance du texte manuscrit
Résumé

Les modèles encodeur-décodeur sont devenus une approche efficace pour les tâches d'apprentissage séquentiel telles que la traduction automatique, la légendage d'images et la reconnaissance vocale, mais ils n'ont pas encore montré des résultats compétitifs pour la reconnaissance de texte manuscrit. Dans ce cadre, nous proposons un modèle séquence-à-séquence basé sur l'attention. Ce modèle combine un réseau neuronal convolutif en tant qu'extraiteur générique de caractéristiques avec un réseau neuronal récurrent pour encoder à la fois les informations visuelles et le contexte temporel entre les caractères dans l'image d'entrée, et utilise un réseau neuronal récurrent distinct pour décoder la séquence de caractères réelle. Nous effectuons des comparaisons expérimentales entre différents mécanismes d'attention et codages positionnels afin de trouver un alignement approprié entre la séquence d'entrée et celle de sortie. Le modèle peut être entraîné de bout en bout, et l'intégration optionnelle d'une perte hybride permet à l'encodeur de conserver une sortie interprétable et utilisable, si souhaité. Nous obtenons des résultats compétitifs sur les ensembles de données IAM et ICFHR2016 READ par rapport à l'état de l'art sans utiliser de modèle linguistique, et nous améliorons considérablement les approches séquence-à-séquence récentes.

Évaluation des modèles Sequence-to-Sequence pour la reconnaissance du texte manuscrit | Articles de recherche récents | HyperAI