HyperAIHyperAI
il y a 11 jours

Réseaux de reconnaissance de texte multimodaux : améliorations interactives entre les caractéristiques visuelles et sémantiques

Byeonghu Na, Yoonsik Kim, Sungrae Park
Réseaux de reconnaissance de texte multimodaux : améliorations interactives entre les caractéristiques visuelles et sémantiques
Résumé

Les connaissances linguistiques ont apporté de grands bénéfices à la reconnaissance de texte en scène en fournissant un sens pour affiner les séquences de caractères. Toutefois, comme ces connaissances linguistiques ont été appliquées de manière indépendante sur la séquence de sortie, les méthodes précédentes n’ont pas pleinement exploité le sens pour comprendre les indices visuels dans la reconnaissance de texte. Ce papier présente une nouvelle méthode, appelée Réseau de reconnaissance de texte multi-modale (MATRN), qui permet des interactions entre les caractéristiques visuelles et sémantiques afin d’améliorer les performances de reconnaissance. Plus précisément, MATRN identifie des paires de caractéristiques visuelles et sémantiques, et encode des informations spatiales dans les caractéristiques sémantiques. À partir de cette encodage spatial, les caractéristiques visuelles et sémantiques sont améliorées en se référant aux caractéristiques associées de l’autre modalité. En outre, MATRN stimule l’intégration des caractéristiques sémantiques dans les caractéristiques visuelles en masquant, durant la phase d’entraînement, les indices visuels liés aux caractères. Nos expériences montrent que MATRN atteint des performances de pointe sur sept benchmarks, avec des écarts significatifs, tandis que les combinaisons naïves des deux modalités offrent des améliorations moins efficaces. Des études ablatives supplémentaires confirment l’efficacité des composants proposés. Notre implémentation est disponible à l’adresse suivante : https://github.com/wp03052/MATRN.

Réseaux de reconnaissance de texte multimodaux : améliorations interactives entre les caractéristiques visuelles et sémantiques | Articles de recherche récents | HyperAI