HyperAIHyperAI

Command Palette

Search for a command to run...

DTrOCR : Transformer uniquement décodeur pour la reconnaissance optique de caractères

Fujitake Masato

Résumé

Les méthodes de reconnaissance typique du texte s'appuient sur une structure encodeur-décodeur, dans laquelle l'encodeur extrait des caractéristiques d'une image et le décodeur produit le texte reconnu à partir de ces caractéristiques. Dans cette étude, nous proposons une méthode plus simple et plus efficace pour la reconnaissance du texte, connue sous le nom de Décodeur-seul Transformer pour la Reconnaissance Optique des Caractères (DTrOCR). Cette méthode utilise un Transformers uniquement en décodeur afin de tirer parti d'un modèle de langage génératif pré-entraîné sur un grand corpus. Nous avons examiné si un modèle de langage génératif qui a fait ses preuves dans le traitement du langage naturel pouvait également être efficace pour la reconnaissance du texte en vision par ordinateur. Nos expériences ont démontré que DTrOCR surpassait largement les méthodes actuelles les plus avancées dans la reconnaissance du texte imprimé, manuscrit et en scène, tant en anglais qu'en chinois.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DTrOCR : Transformer uniquement décodeur pour la reconnaissance optique de caractères | Articles | HyperAI