HyperAIHyperAI
il y a 15 jours

Easter2.0 : Amélioration des modèles convolutionnels pour la reconnaissance de texte manuscrit

Kartik Chaudhary, Raghav Bali
Easter2.0 : Amélioration des modèles convolutionnels pour la reconnaissance de texte manuscrit
Résumé

Les réseaux de neurones convolutifs (CNN) ont montré des résultats prometteurs pour la reconnaissance de texte manuscrit (HTR), mais ils restent encore inférieurs aux modèles basés sur les réseaux de neurones récurrents (RNN) ou les Transformers en termes de performance. Dans ce papier, nous proposons une architecture basée sur les CNN qui comble cet écart. Notre travail, Easter2.0, est composé de plusieurs couches successives de convolution 1D, de normalisation par lot (Batch Normalization), de fonction d’activation ReLU, de dropout, de connexions résiduelles denses, de module Squeeze-and-Excitation, et utilise une perte de classification temporelle connexionniste (CTC). En complément de l’architecture Easter2.0, nous proposons une technique simple et efficace d’augmentation de données, nommée « Tiling and Corruption (TACO) », adaptée spécifiquement à la tâche de HTR/OCR. Nos expérimentations montrent que notre méthode atteint des résultats de pointe sur la base de données IAM de textes manuscrits, en étant entraînée uniquement sur des données d’entraînement publiques. Nous analysons également l’impact des augmentations TACO et du module Squeeze-and-Excitation sur la précision de reconnaissance des textes. Nous démontrons en outre que Easter2.0 est particulièrement adapté aux tâches d’apprentissage peu supervisé (few-shot learning) et surpasse les méthodes actuelles les plus performantes, y compris les Transformers, lorsqu’il est entraîné sur un petit volume de données annotées. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/kartikgill/Easter2

Easter2.0 : Amélioration des modèles convolutionnels pour la reconnaissance de texte manuscrit | Articles de recherche récents | HyperAI