HyperAIHyperAI
il y a 2 mois

Détection de texte en scène par prédiction holistique et multicanaux

Cong Yao; Xiang Bai; Nong Sang; Xinyu Zhou; Shuchang Zhou; Zhimin Cao
Détection de texte en scène par prédiction holistique et multicanaux
Résumé

Récemment, la détection de texte dans les scènes est devenue un sujet de recherche actif en vision par ordinateur et analyse de documents, en raison de son importance considérable et de ses défis significatifs. Cependant, la grande majorité des méthodes existantes détectent le texte dans des régions locales, généralement en extrayant des candidats au niveau des caractères, des mots ou des lignes, suivis d'une agrégation des candidats et d'une élimination des faux positifs, ce qui peut potentiellement exclure l'effet des indices contextuels à large portée et à longue distance dans la scène. Pour tirer pleinement parti de l'information riche disponible dans l'image naturelle complète, nous proposons de localiser le texte d'une manière holistique, en transformant la détection de texte dans les scènes en un problème de segmentation sémantique. L'algorithme proposé fonctionne directement sur les images complètes et produit des cartes de prédiction globales au niveau pixel, dans lesquelles les détections sont ensuite formées. Pour mieux exploiter les propriétés du texte, trois types d'informations concernant la région textuelle, les caractères individuels et leurs relations sont estimés avec un seul modèle de réseau neuronal convolutif entièrement convolutionnel (FCN). Avec ces prédictions sur les propriétés du texte, l'algorithme proposé peut traiter simultanément le texte horizontal, multi-orienté et courbé dans les images naturelles réelles. Les expériences menées sur des benchmarks standards, tels que ICDAR 2013, ICDAR 2015 et MSRA-TD500, montrent que l'algorithme proposé dépasse substantiellement les approches précédentes de pointe. De plus, nous rapportons le premier résultat de référence sur le jeu de données à grande échelle COCO-Text récemment publié.

Détection de texte en scène par prédiction holistique et multicanaux | Articles de recherche récents | HyperAI