Réseau d'attention déconnectée pour la reconnaissance de texte

La reconnaissance de texte a suscité un intérêt de recherche considérable en raison de ses nombreuses applications. Les méthodes de pointe en reconnaissance de texte reposent sur des mécanismes d’attention. Toutefois, la plupart de ces approches basées sur l’attention souffrent d’un problème sérieux d’alignement, dû à leur opération récurrente d’alignement, qui dépend des résultats de décodage historiques. Pour remédier à ce défaut, nous proposons un réseau d’attention déconnectée (DAN, Decoupled Attention Network), qui déconnecte l’opération d’alignement des résultats de décodage passés. DAN est un reconnaisseur de texte end-to-end efficace, flexible et robuste, composé de trois composants : 1) un encodeur de caractéristiques qui extrait les caractéristiques visuelles à partir de l’image d’entrée ; 2) un module d’alignement convolutif qui réalise l’opération d’alignement à partir des caractéristiques visuelles extraites par l’encodeur ; et 3) un décodeur de texte déconnecté qui effectue la prédiction finale en combinant conjointement la carte de caractéristiques et les cartes d’attention. Les résultats expérimentaux montrent que DAN atteint des performances de pointe sur plusieurs tâches de reconnaissance de texte, notamment la reconnaissance de texte manuscrit en ligne et hors ligne, ainsi que la reconnaissance de texte scènique régulier et irrégulier.