Command Palette
Search for a command to run...
Détection de texte orienté dans les images naturelles par liaison de segments
Détection de texte orienté dans les images naturelles par liaison de segments
Shi Baoguang Bai Xiang Belongie Serge
Résumé
La plupart des méthodes les plus avancées de détection de texte sont spécifiques aux textes latins horizontaux et ne sont pas assez rapides pour les applications en temps réel. Nous proposons SegLink, une méthode de détection de texte orienté. L'idée principale consiste à décomposer le texte en deux éléments localement détectables : les segments et les liens. Un segment est un rectangle orienté couvrant une partie d’un mot ou d’une ligne de texte ; un lien relie deux segments adjacents, indiquant qu’ils appartiennent au même mot ou à la même ligne de texte. Ces deux éléments sont détectés de manière dense à plusieurs échelles par un réseau neuronal entièrement convolutif entraîné de manière end-to-end. Les détections finales sont obtenues en combinant les segments reliés par des liens. Par rapport aux méthodes précédentes, SegLink améliore significativement les performances en termes de précision, de vitesse et de facilité d’entraînement. Il atteint un score F-mesure de 75,0 % sur le benchmark standard ICDAR 2015 Incidental (Défi 4), surpassant largement le résultat précédent. Le système fonctionne à plus de 20 FPS sur des images de taille 512×512. En outre, sans modification, SegLink est capable de détecter des lignes de texte longues non latines, telles que le chinois.