I3CL : Apprentissage collaboratif intra- et inter-instance pour la détection de texte scénique de forme arbitraire

Les méthodes existantes de détection de textes de forme arbitraire dans les scènes naturelles soulèvent deux problèmes critiques : 1) des détections fragmentées aux lacunes au sein d'une instance de texte ; et 2) des détections imprécises d'instances de texte de forme arbitraire dans des contextes arrière-plan diversifiés. Pour résoudre ces problèmes, nous proposons une nouvelle méthode nommée apprentissage collaboratif intra- et inter-instance (I3CL). Plus précisément, pour traiter le premier problème, nous concevons un module convolutif efficace à champs réceptifs multiples, capable d'apprendre de manière collaborative des représentations de caractères et de lacunes à la fois à courte et à longue portée à l'intérieur d'une instance de texte. Pour aborder le second problème, nous proposons un module transformer basé sur les instances afin d'exploiter les dépendances entre différentes instances de texte, ainsi qu'un module de contexte global pour tirer parti du contexte sémantique provenant du fond partagé, ces deux composants permettant d'apprendre conjointement des représentations de caractéristiques textuelles plus discriminantes. Ainsi, I3CL permet d'exploiter efficacement, dans un cadre unifié et entièrement entraînable de bout en bout, les dépendances intra- et inter-instance. En outre, afin d'exploiter pleinement les données non étiquetées, nous avons conçu une méthode d'apprentissage semi-supervisé efficace, qui utilise des pseudo-étiquettes via une stratégie d'ensemble. Sans recourir à des ajouts complexes, les résultats expérimentaux montrent que la méthode I3CL établit de nouveaux états de l'art sur trois benchmarks publics exigeants : un score F de 77,5 % sur ICDAR2019-ArT, 86,9 % sur Total-Text et 86,4 % sur CTW-1500. Notamment, notre modèle I3CL utilisant le modèle de base ResNeSt-101 a obtenu la première place au classement d'ICDAR2019-ArT. Le code source sera disponible à l'adresse suivante : https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection.