il y a 2 mois

Distillation auto-supervisée de caractère à caractère pour la reconnaissance de texte

Tongkun Guan; Wei Shen; Xue Yang; Qi Feng; Zekun Jiang; Xiaokang Yang

Résumé

Lorsqu'il s'agit de traiter des images de texte complexes (par exemple, des structures irrégulières, une faible résolution, une forte occultation et un éclairage inégal), les méthodes actuelles de reconnaissance supervisée du texte sont avides de données. Bien que ces méthodes utilisent des images de texte synthétiques à grande échelle pour réduire la dépendance aux images réelles annotées, l'écart entre les domaines continue de limiter les performances de reconnaissance. Par conséquent, explorer des représentations robustes des caractéristiques du texte sur des images réelles non étiquetées par apprentissage auto-supervisé est une bonne solution. Cependant, les méthodes actuelles d'apprentissage auto-supervisé pour la reconnaissance du texte effectuent un apprentissage de représentation séquence-à-séquence en divisant grossièrement les caractéristiques visuelles selon l'axe horizontal, ce qui limite la flexibilité des augmentations, car de grandes augmentations géométriques peuvent entraîner une incohérence des caractéristiques séquence-à-séquence.Motivés par cette observation, nous proposons une nouvelle méthode d'apprentissage auto-supervisé Character-to-Character Distillation (CCD), qui permet des augmentations variées pour faciliter l'apprentissage général des représentations textuelles. Plus précisément, nous délimitons les structures des caractères dans les images réelles non étiquetées en concevant un module de segmentation de caractères auto-supervisé. Ensuite, CCD enrichit facilement la diversité des caractères locaux tout en maintenant leur alignement pair-à-pair sous des augmentations flexibles, en utilisant la matrice de transformation entre deux vues augmentées issues d'une image.Les expériences montrent que CCD obtient des résultats d'état de l'art, avec une amélioration moyenne des performances de 1,38 % en reconnaissance du texte, 1,7 % en segmentation du texte, 0,24 dB (PSNR) et 0,0321 (SSIM) en sur-résolution du texte. Le code est disponible sur https://github.com/TongkunGuan/CCD.