HyperAIHyperAI
il y a 8 jours

TPSNet : Réflexion Inversée des Splines Minces pour la Représentation de Texte en Scène de Forme Arbitraire

Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang
TPSNet : Réflexion Inversée des Splines Minces pour la Représentation de Texte en Scène de Forme Arbitraire
Résumé

Dans les dernières années, le focus de la recherche sur la détection et la reconnaissance de texte dans les scènes s’est déplacé vers le texte de forme arbitraire, où la représentation de la forme du texte constitue un problème fondamental. À notre avis, une représentation idéale devrait être compacte, complète, efficace et réutilisable pour les étapes ultérieures de reconnaissance. Toutefois, les représentations précédentes présentent des défauts dans un ou plusieurs aspects. La transformation Thin-Plate-Spline (TPS) a connu un succès remarquable dans la reconnaissance de texte en scène. Inspirés par cette approche, nous adoptons une perspective inverse et utilisons de manière subtile la TPS comme une représentation élégante pour le texte de forme arbitraire. La représentation TPS est compacte, complète et efficace. Grâce aux paramètres TPS prédits, la région textuelle détectée peut être directement rectifiée vers une orientation presque horizontale, facilitant ainsi la reconnaissance ultérieure. Pour exploiter davantage le potentiel de cette représentation TPS, nous proposons une nouvelle fonction de perte, appelée Border Alignment Loss. Sur la base de ces innovations, nous avons mis en œuvre un détecteur de texte appelé TPSNet, qui peut être facilement étendu à un système de spotter de texte. Des évaluations étendues et des études d’ablation sur plusieurs benchmarks publics démontrent l’efficacité et l’avantage de la méthode proposée pour la représentation et le spotter de texte. En particulier, TPSNet atteint une amélioration de 4,4 % (78,4 % contre 74,0 %) en mesure F pour la détection sur le jeu de données Art, ainsi qu’une amélioration de 5,0 % (78,5 % contre 73,5 %) en mesure F end-to-end pour le spotter sur Total-Text, des gains significatifs obtenus sans recourir à des ajouts complexes ou des techniques annexes.

TPSNet : Réflexion Inversée des Splines Minces pour la Représentation de Texte en Scène de Forme Arbitraire | Articles de recherche récents | HyperAI