Regarder en arrière à nouveau : réseau d'attention parallèle dual pour une reconnaissance précise et robuste du texte scénique
Actuellement, l’utilisation d’un cadre d’encodage-décodage parallèle et découplé (PDED) pour la reconnaissance de texte dans les scènes est devenue une tendance en raison de sa flexibilité et de son efficacité. Toutefois, en raison de l’incohérence du contenu informationnel entre les requêtes et les clés dans le module d’attention positionnelle parallèle (PPAM) utilisé dans ce type de cadre (les requêtes : informations de position ; les clés : informations contextuelles et de position), une mauvaise alignement visuel apparaît fréquemment face à des exemples difficiles (par exemple, textes flous, textes irréguliers ou images de mauvaise qualité). Pour résoudre ce problème, nous proposons dans cet article un réseau d’attention parallèle dual (DPAN), dans lequel un nouveau module d’attention contextuelle parallèle (PCAM) est en cascade avec le PPAM original, exploitant des informations contextuelles linguistiques afin de compenser l’incohérence informationnelle entre les requêtes et les clés. Plus précisément, dans le PCAM, nous prenons les caractéristiques visuelles issues du PPAM comme entrée, et introduisons un modèle linguistique bidirectionnel pour enrichir ces caractéristiques par des contextes linguistiques, afin de générer des requêtes améliorées. Ainsi, nous assurons une cohérence du contenu informationnel entre les requêtes et les clés au sein du PCAM, ce qui permet de produire des aperçus visuels plus précis, améliorant ainsi la précision et la robustesse globale du cadre PDED. Les résultats expérimentaux confirment l’efficacité du PCAM proposé, mettant en évidence la nécessité de maintenir une cohérence informationnelle entre requêtes et clés dans le mécanisme d’attention. Sur six benchmarks, incluant des textes réguliers et irréguliers, les performances de DPAN surpassent largement les méthodes actuelles les plus performantes, atteignant un nouveau record d’état de l’art. Le code est disponible à l’adresse suivante : https://github.com/Jackandrome/DPAN.