HyperAIHyperAI

Command Palette

Search for a command to run...

HTR-VT : Reconnaissance du texte manuscrit avec le Vision Transformer

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

Résumé

Nous explorons l'application du Vision Transformer (ViT) pour la reconnaissance de texte manuscrit. La disponibilité limitée de données étiquetées dans ce domaine pose des défis pour atteindre une haute performance en s'appuyant uniquement sur le ViT. Les modèles basés sur les transformers précédents nécessitaient des données externes ou un pré-entraînement intensif sur de grands ensembles de données pour exceller. Pour remédier à cette limitation, nous introduisons une méthode de ViT efficace en termes de données qui utilise uniquement l'encodeur du transformer standard. Nous constatons que l'intégration d'un Réseau Neuronal Convolutif (CNN) pour l'extraction des caractéristiques, au lieu de l'embedding par patch original, et l'utilisation de l'optimiseur Sharpness-Aware Minimization (SAM) permettent au modèle de converger vers des minima plus plats et d'apporter des améliorations notables. De plus, notre introduction de la technique du masque d'étendue, qui masque les caractéristiques interconnectées dans la carte des caractéristiques, agit comme un régulariseur efficace. Expérimentalement, notre approche se compare favorablement aux modèles traditionnels basés sur les CNN sur des petits ensembles de données tels que IAM et READ2016. En outre, elle établit un nouveau point de référence sur le jeu de données LAM, actuellement le plus grand ensemble avec 19 830 lignes de texte d'entraînement. Le code est disponible publiquement à : https://github.com/YutingLi0606/HTR-VT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp