il y a 17 jours

SPTS v2 : Spotting de texte scènique à point unique

Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin

Voir les détails de l'article

SPTS v2 : Spotting de texte scènique à point unique

Résumé

La détection et la reconnaissance de texte en scène en bout-à-bout ont connu des progrès significatifs grâce à la synergie intrinsèque entre la détection de texte et sa reconnaissance. Les méthodes précédentes considéraient généralement comme prérequis des annotations manuelles telles que des rectangles horizontaux, des rectangles inclinés, des quadrilatères ou des polygones, qui sont beaucoup plus coûteuses que l’utilisation de points simples. Notre nouveau cadre, SPTS v2, permet d’entraîner des modèles performants pour la détection et la reconnaissance de texte en scène à l’aide d’annotations ponctuelles uniquement. SPTS v2 préserve l’avantage du modèle Transformer auto-régressif grâce à un décodeur d’attribution d’instances (IAD), qui prédit séquentiellement les points centraux de toutes les instances de texte dans une même séquence de prédiction, tout en intégrant un décodeur de reconnaissance parallèle (PRD) pour effectuer la reconnaissance du texte de manière parallèle, ce qui réduit considérablement la longueur nécessaire de la séquence. Ces deux décodeurs partagent les mêmes paramètres et sont interconnectés par un processus simple mais efficace d’échange d’informations et de propagation des gradients. Des expériences approfondies sur diverses bases de données standards établies démontrent que SPTS v2 surpasse les méthodes de pointe précédentes basées sur une seule annotation ponctuelle, avec un nombre de paramètres réduit et une vitesse d’inférence 19 fois plus rapide. Dans le cadre de notre cadre SPTS v2, nos expériences suggèrent une préférence potentielle pour la représentation ponctuelle dans la détection et la reconnaissance de texte en scène par rapport aux autres représentations. Cette approche ouvre ainsi des perspectives importantes pour les applications de détection de texte en scène au-delà des paradigmes existants. Le code est disponible à l’adresse : https://github.com/Yuliang-Liu/SPTSv2.