HyperAIHyperAI

Command Palette

Search for a command to run...

Distillation auto-supervisée de caractère à caractère pour la reconnaissance de texte

Tongkun Guan extsuperscript1 Wei Shen extsuperscript1 extsuperscript* Xue Yang extsuperscript1 Qi Feng extsuperscript2 Zekun Jiang extsuperscript1 Xiaokang Yang extsuperscript1

Résumé

Lorsqu'il s'agit de traiter des images de texte complexes (par exemple, des structures irrégulières, une faible résolution, une forte occultation et un éclairage inégal), les méthodes actuelles de reconnaissance supervisée du texte sont avides de données. Bien que ces méthodes utilisent des images de texte synthétiques à grande échelle pour réduire la dépendance aux images réelles annotées, l'écart entre les domaines continue de limiter les performances de reconnaissance. Par conséquent, explorer des représentations robustes des caractéristiques du texte sur des images réelles non étiquetées par apprentissage auto-supervisé est une bonne solution. Cependant, les méthodes actuelles d'apprentissage auto-supervisé pour la reconnaissance du texte effectuent un apprentissage de représentation séquence-à-séquence en divisant grossièrement les caractéristiques visuelles selon l'axe horizontal, ce qui limite la flexibilité des augmentations, car de grandes augmentations géométriques peuvent entraîner une incohérence des caractéristiques séquence-à-séquence.Motivés par cette observation, nous proposons une nouvelle méthode d'apprentissage auto-supervisé Character-to-Character Distillation (CCD), qui permet des augmentations variées pour faciliter l'apprentissage général des représentations textuelles. Plus précisément, nous délimitons les structures des caractères dans les images réelles non étiquetées en concevant un module de segmentation de caractères auto-supervisé. Ensuite, CCD enrichit facilement la diversité des caractères locaux tout en maintenant leur alignement pair-à-pair sous des augmentations flexibles, en utilisant la matrice de transformation entre deux vues augmentées issues d'une image.Les expériences montrent que CCD obtient des résultats d'état de l'art, avec une amélioration moyenne des performances de 1,38 % en reconnaissance du texte, 1,7 % en segmentation du texte, 0,24 dB (PSNR) et 0,0321 (SSIM) en sur-résolution du texte. Le code est disponible sur https://github.com/TongkunGuan/CCD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp