Montrer, Sélectionner et Lire : Une Base Simple et Robuste pour la Reconnaissance de Texte Irrégulier

La reconnaissance de texte irrégulier dans des images de scènes naturelles est un défi en raison de la grande variabilité de l'apparence du texte, telle que la courbure, l'orientation et la distorsion. La plupart des approches existantes s'appuient fortement sur des conceptions de modèles sophistiquées et/ou des annotations fines supplémentaires, ce qui augmente, dans une certaine mesure, la difficulté d'implémentation des algorithmes et de collecte de données. Dans cette étude, nous proposons une ligne de base performante et facile à mettre en œuvre pour la reconnaissance de texte irrégulier dans les scènes, utilisant uniquement des composants de réseau neuronal standard et des annotations au niveau du mot. Elle se compose d'un ResNet à $31$ couches, d'un cadre encodeur-décodeur basé sur LSTM et d'un module d'attention bidimensionnel. Malgré sa simplicité, la méthode proposée est robuste et atteint des performances parmi les meilleures sur les bancs d'essai de reconnaissance de texte régulier et irrégulier dans les scènes. Le code source est disponible à l'adresse suivante : https://tinyurl.com/ShowAttendRead