Un réseau de neurones à attention rectifiée multi-objet pour la reconnaissance de texte en scène

Le texte irrégulier est largement utilisé. Cependant, il est considérablement difficile à reconnaître en raison de ses formes variées et de ses motifs déformés. Dans cet article, nous proposons donc un réseau d'attention rectifié multi-objet (MORAN) pour la reconnaissance générale du texte en scène. Le MORAN se compose d'un réseau de rectification multi-objet et d'un réseau de reconnaissance séquentielle basé sur l'attention. Le réseau de rectification multi-objet est conçu pour corriger les images contenant du texte irrégulier. Il réduit la difficulté de reconnaissance et permet au réseau de reconnaissance séquentielle basé sur l'attention de lire plus facilement le texte irrégulier. Ce réseau est entraîné avec une supervision faible, nécessitant uniquement des images et leurs étiquettes textuelles correspondantes. Le réseau de reconnaissance séquentielle basé sur l'attention se concentre sur les caractères cibles et produit les prédictions de manière séquentielle. De plus, pour améliorer la sensibilité du réseau de reconnaissance séquentielle basé sur l'attention, une méthode de sélection fractionnée est proposée pour le décodeur basé sur l'attention lors de la phase d'entraînement. Grâce au mécanisme de rectification, le MORAN peut lire à la fois le texte régulier et irrégulier en scène. Des expériences approfondies ont été menées sur diverses基准 (benchmarks), montrant que le MORAN atteint des performances parmi les meilleures actuellement disponibles. Le code source est disponible.注:在“benchmark”一词后面添加了中文原文,以确保信息完整。不过根据您的要求,这里也提供了英文原文“benchmarks”。如果您希望完全使用法语术语,请告知我进行调整。