HyperAIHyperAI
il y a 8 jours

SwinTextSpotter : Détection et reconnaissance de texte en scène par une meilleure synergie entre la détection de texte et la reconnaissance de texte

Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
SwinTextSpotter : Détection et reconnaissance de texte en scène par une meilleure synergie entre la détection de texte et la reconnaissance de texte
Résumé

La détection et la reconnaissance de texte dans les scènes en bout-à-bout ont suscité un intérêt croissant ces dernières années, grâce au succès observé dans l’exploitation de la synergie intrinsèque entre la détection de texte en scène et sa reconnaissance. Toutefois, les méthodes les plus récentes et les plus performantes s’appuient généralement sur une simple partage de l’architecture principale (backbone) entre les deux tâches, sans exploiter directement les interactions entre les caractéristiques des deux processus. Dans cet article, nous proposons un nouveau cadre de détection et de reconnaissance de texte en bout-à-bout, appelé SwinTextSpotter. En utilisant un encodeur transformer avec une tête dynamique comme détecteur, nous unifions les deux tâches grâce à un mécanisme novateur de conversion de reconnaissance, qui guide explicitement la localisation du texte via une perte de reconnaissance. Cette conception simple conduit à un cadre compact, qui ne nécessite ni module de rectification supplémentaire, ni annotation au niveau des caractères pour les textes de forme arbitraire. Des expériences qualitatives et quantitatives menées sur des jeux de données orientés de manière multiple (RoIC13 et ICDAR 2015), des jeux de données à formes de texte arbitraires (Total-Text et CTW1500), ainsi que sur des jeux de données multilingues (ReCTS en chinois et VinText en vietnamien) démontrent que SwinTextSpotter surpasser significativement les méthodes existantes. Le code est disponible à l’adresse suivante : https://github.com/mxin262/SwinTextSpotter.