Détection de texte orienté dans les images naturelles par liaison de segments

La plupart des méthodes de détection de texte les plus avancées sont spécifiques au texte latin horizontal et ne sont pas suffisamment rapides pour les applications en temps réel. Nous présentons Segment Linking (SegLink), une méthode de détection de texte orienté. L'idée principale est de décomposer le texte en deux éléments détectables localement, à savoir des segments et des liens. Un segment est une boîte orientée couvrant une partie d'un mot ou d'une ligne de texte ; un lien connecte deux segments adjacents, indiquant qu'ils appartiennent au même mot ou à la même ligne de texte. Les deux éléments sont détectés de manière dense à plusieurs échelles par un réseau neuronal entièrement convolutif formé d'une manière bout-à-bout. Les détections finales sont produites en combinant les segments connectés par des liens. Comparativement aux méthodes précédentes, SegLink améliore les dimensions de précision, vitesse et facilité d'entraînement. Il atteint un f-mesure de 75,0% sur le benchmark standard ICDAR 2015 Incidental (Défi 4), surpassant largement le meilleur précédent résultat. Il fonctionne à plus de 20 FPS sur des images de 512x512 pixels. De plus, sans modification, SegLink est capable de détecter des lignes longues de texte non latin, telles que le chinois.