La sémantique visuelle permet un raisonnement textuel plus efficace dans la reconnaissance de texte scénique

Les méthodes existantes de reconnaissance de texte dans les scènes (STR) utilisent généralement un modèle linguistique afin d’optimiser la probabilité conjointe de la séquence de caractères 1D prédite par un modèle de reconnaissance visuelle (VR), ce qui ignore le contexte spatial 2D des significations visuelles à l’intérieur et entre les instances de caractères, rendant ces approches peu généralisables au texte scénique de formes arbitraires. Pour résoudre ce problème, nous proposons dans cet article la première tentative de réaliser un raisonnement textuel fondé sur les significations visuelles. Techniquement, à partir des cartes de segmentation des caractères prédites par un modèle VR, nous construisons un sous-graphe pour chaque instance, où les nœuds représentent les pixels de cette instance et les arêtes sont établies entre les nœuds en fonction de leur similarité spatiale. Ces sous-graphes sont ensuite connectés séquentiellement par leurs nœuds racines et fusionnés en un graphe complet. À partir de ce graphe, nous proposons un réseau de convolution de graphe pour le raisonnement textuel (GTR), entraîné à l’aide d’une perte d’entropie croisée. Le GTR peut être facilement intégré aux modèles STR représentatifs afin d’améliorer leurs performances grâce à un raisonnement textuel amélioré. Plus précisément, nous construisons notre modèle, nommé S-GTR, en parallélisant le GTR au modèle linguistique dans une base STR fondée sur la segmentation, permettant ainsi une exploitation efficace de la complémentarité visuelle-linguistique par apprentissage mutuel. Le modèle S-GTR établit un nouveau record sur six benchmarks exigeants de STR et se généralise bien aux jeux de données multilingues. Le code est disponible à l’adresse suivante : https://github.com/adeline-cs/GTR.