Cadre d'encodeur-decodeur à représentation et corrélation renforcées pour la reconnaissance de texte scènique

Le cadre encodeur-décodificateur basé sur l’attention est largement utilisé dans les tâches de reconnaissance de texte scènique. Toutefois, les méthodes les plus avancées (SOTA) actuelles présentent encore des limites en ce qui concerne l’utilisation efficace des informations visuelles locales et du contexte global provenant de l’image texte d’entrée, ainsi que la robustesse de la corrélation entre le module de traitement scènique (encodeur) et le module de traitement du texte (décodificateur). Dans cet article, nous proposons un cadre encodeur-décodificateur amélioré, appelé RCEED (Representation and Correlation Enhanced Encoder-Decoder Framework), afin de combler ces lacunes et de surmonter le plafond de performance existant. Dans le module encodeur, les caractéristiques visuelles locales, les caractéristiques contextuelles globales et les informations de position sont alignées et fusionnées pour produire une carte de caractéristiques compacte. Dans le module décodificateur, deux approches sont adoptées pour renforcer la corrélation entre les espaces de caractéristiques scènique et textuel : 1) l’initialisation du décodificateur est guidée par une caractéristique globale et un vecteur d’aperçu global extraits de l’encodeur ; 2) un vecteur d’aperçu enrichi en caractéristiques, généré par l’attention multi-tête généralisée, est utilisé pour accompagner l’itération du RNN et la prédiction des caractères à chaque pas temporel. Par ailleurs, nous avons conçu une cellule LSTM avec normalisation par couche (Layernorm-Dropout) afin d’améliorer la généralisation du modèle face à des textes de formes variables. Des expériences étendues sur des benchmarks démontrent les performances supérieures de RCEED dans les tâches de reconnaissance de texte scènique, en particulier pour les textes irréguliers.