HyperAIHyperAI
il y a 16 jours

ASTER : Un reconnaisseur de texte scénique à attention avec rectification flexible

{and Xiang Bai, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, Baoguang Shi}
Résumé

La reconnaissance de texte dans les scènes (scene text recognition) a suscité un vif intérêt tant dans le milieu académique que dans l’industrie ces dernières années, en raison de son importance dans un large éventail d’applications. Malgré le haut degré de maturité des systèmes de reconnaissance optique de caractères (OCR) dédiés au traitement du texte dans les documents, la reconnaissance de texte dans les scènes demeure un problème difficile. Les grandes variations du fond, de l’apparence et de la disposition posent des défis significatifs, auxquels les méthodes traditionnelles d’OCR ne parviennent pas à répondre efficacement. Les progrès récents dans ce domaine sont principalement dus au succès des modèles de reconnaissance basés sur l’apprentissage profond. Parmi ceux-ci, on trouve des méthodes qui reconnaissent le texte par caractères à l’aide de réseaux de neurones convolutifs (CNN), des méthodes qui classent les mots à l’aide de CNN [24], [26], ainsi que des approches qui reconnaissent des séquences de caractères en combinant un CNN et un réseau de neurones récurrents (RNN) [54]. Malgré leurs succès, ces méthodes ne traitent pas explicitement le problème du texte irrégulier, c’est-à-dire du texte qui n’est ni horizontal ni frontal, ou qui présente une disposition courbée, etc. De tels cas de texte irrégulier apparaissent fréquemment dans les scènes naturelles. Comme illustré à la Figure 1, des exemples typiques incluent le texte orienté, le texte en perspective [49], et le texte courbé. Conçues sans invariance vis-à-vis de ces irrégularités, les méthodes antérieures peinent souvent à reconnaître efficacement ces instances de texte.

ASTER : Un reconnaisseur de texte scénique à attention avec rectification flexible | Articles de recherche récents | HyperAI