HyperAIHyperAI
il y a 17 jours

Spotter de texte scènique autonome à tir unique par détection et reconnaissance déliées mais collaboratives

Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Wenjie Pei
Spotter de texte scènique autonome à tir unique par détection et reconnaissance déliées mais collaboratives
Résumé

Les détecteurs de texte classiques suivent généralement un paradigme à deux étapes, qui détecte d'abord les contours d'une instance de texte, puis effectue la reconnaissance du texte dans les régions détectées. Malgré les progrès significatifs réalisés par ce paradigme, une limitation importante réside dans le fait que les performances de reconnaissance du texte dépendent fortement de la précision de la détection, entraînant ainsi un risque de propagation d'erreurs de la détection vers la reconnaissance. Dans ce travail, nous proposons le détecteur de texte scénique à tir unique et auto-suffisant v2 (SRSTS v2), qui contourne cette limitation en découplant la reconnaissance de la détection tout en optimisant les deux tâches de manière collaborative. Plus précisément, notre SRSTS v2 échantillonne des points caractéristiques représentatifs autour de chaque instance potentielle de texte, et réalise en parallèle la détection du texte et sa reconnaissance, guidées par ces points échantillonnés. Ainsi, la reconnaissance du texte n’est plus dépendante de la détection, ce qui atténue efficacement la propagation d’erreurs de la détection vers la reconnaissance. De plus, le module d’échantillonnage est appris sous la supervision conjointe de la détection et de la reconnaissance, permettant ainsi une optimisation collaborative et une amélioration mutuelle entre les deux tâches. Grâce à ce cadre de détection simultanée piloté par l’échantillonnage, notre méthode parvient à reconnaître correctement les instances de texte même lorsque la détection de leurs contours précis est difficile. Des expériences étendues sur quatre benchmarks démontrent que notre approche se distingue favorablement des méthodes les plus avancées à l’état de l’art.

Spotter de texte scènique autonome à tir unique par détection et reconnaissance déliées mais collaboratives | Articles de recherche récents | HyperAI