Vers une reconnaissance précise du texte scénique grâce aux réseaux de raisonnement sémantique

L’image de texte scénique contient deux niveaux de contenus : la texture visuelle et l’information sémantique. Bien que les méthodes précédentes de reconnaissance de texte scénique aient accompli des progrès considérables au cours des dernières années, la recherche visant à exploiter l’information sémantique pour aider à la reconnaissance de texte a reçu moins d’attention, les approches se limitant principalement à l’utilisation de structures du type RNN pour modéliser de manière implicite l’information sémantique. Toutefois, nous observons que les méthodes basées sur les RNN présentent des défauts évidents, tels qu’un mécanisme de décodage dépendant du temps et une transmission séquentielle unidirectionnelle du contexte sémantique, ce qui limite fortement l’apport de l’information sémantique ainsi que l’efficacité computationnelle. Pour atténuer ces limitations, nous proposons un nouveau cadre d’apprentissage end-to-end nommé Réseau de raisonnement sémantique (SRN), dans lequel un module de raisonnement sémantique global (GSRM) est introduit afin de capturer le contexte sémantique global grâce à une transmission parallèle multi-directionnelle. Les résultats de pointe obtenus sur 7 benchmarks publics, couvrant des textes réguliers, irréguliers et des textes longs non latins, confirment l’efficacité et la robustesse de la méthode proposée. En outre, la vitesse de SRN présente un avantage significatif par rapport aux méthodes basées sur les RNN, démontrant ainsi sa valeur dans les applications pratiques.