WordSup : Exploitation des Annotations de Mots pour la Détection de Texte Basée sur les Caractères

Les textes d'imagerie sont généralement organisés en une hiérarchie de plusieurs éléments visuels, à savoir des caractères, des mots, des lignes de texte et des blocs de texte. Parmi ces éléments, le caractère est le plus fondamental pour diverses langues telles que les langues occidentales, chinoises, japonaises, les expressions mathématiques, etc. Il est naturel et pratique de construire un moteur de détection de texte commun basé sur des détecteurs de caractères. Cependant, l'entraînement de détecteurs de caractères nécessite une grande quantité de caractères annotés par leur position, ce qui est coûteux à obtenir. En réalité, la plupart des jeux de données réels contenant du texte sont annotés au niveau des mots ou des lignes. Pour remédier à ce dilemme, nous proposons un cadre d'apprentissage faiblement supervisé capable d'utiliser des annotations de mots, qu'elles soient sous forme de quadrangles serrés ou de boîtes englobantes plus larges, pour l'entraînement des détecteurs de caractères. Lorsqu'il est appliqué à la détection du texte en scène, nous sommes ainsi capables d'entraîner un détecteur de caractères robuste en exploitant les annotations de mots dans les grands jeux de données réels riches en scènes textuelles, tels que ICDAR15 et COCO-text. Le détecteur de caractères joue un rôle clé dans la chaîne de traitement de notre moteur de détection de texte. Il atteint des performances d'état de l'art sur plusieurs benchmarks difficiles pour la détection du texte en scène. Nous montrons également la flexibilité de notre chaîne de traitement dans divers scénarios, y compris la détection du texte déformé et la reconnaissance d'expressions mathématiques.