Command Palette
Search for a command to run...
DTrOCR : Transformer uniquement décodeur pour la reconnaissance optique de caractères
DTrOCR : Transformer uniquement décodeur pour la reconnaissance optique de caractères
Fujitake Masato
Résumé
Les méthodes de reconnaissance typique du texte s'appuient sur une structure encodeur-décodeur, dans laquelle l'encodeur extrait des caractéristiques d'une image et le décodeur produit le texte reconnu à partir de ces caractéristiques. Dans cette étude, nous proposons une méthode plus simple et plus efficace pour la reconnaissance du texte, connue sous le nom de Décodeur-seul Transformer pour la Reconnaissance Optique des Caractères (DTrOCR). Cette méthode utilise un Transformers uniquement en décodeur afin de tirer parti d'un modèle de langage génératif pré-entraîné sur un grand corpus. Nous avons examiné si un modèle de langage génératif qui a fait ses preuves dans le traitement du langage naturel pouvait également être efficace pour la reconnaissance du texte en vision par ordinateur. Nos expériences ont démontré que DTrOCR surpassait largement les méthodes actuelles les plus avancées dans la reconnaissance du texte imprimé, manuscrit et en scène, tant en anglais qu'en chinois.