AON : Vers la reconnaissance de texte orienté arbitrairement

La reconnaissance de texte à partir d'images naturelles est un sujet de recherche en vogue dans le domaine de la vision par ordinateur en raison de ses nombreuses applications. Malgré des décennies de recherches continues sur la reconnaissance optique de caractères (OCR), la reconnaissance de texte à partir d'images naturelles reste une tâche complexe. Ceci est dû au fait que les textes en scène sont souvent disposés de manière irrégulière (par exemple, courbés, orientés arbitrairement ou gravement déformés), ce qui n'a pas encore été pleinement résolu dans la littérature. Les méthodes existantes pour la reconnaissance de texte fonctionnent principalement avec des textes réguliers (horizontaux et frontaux) et ne peuvent pas être facilement généralisées pour traiter des textes irréguliers. Dans cet article, nous développons un réseau d'orientation arbitraire (AON) pour capturer directement les caractéristiques profondes des textes irréguliers, qui sont ensuite combinées dans un décodeur basé sur l'attention pour générer une séquence de caractères. Le réseau complet peut être entraîné bout à bout en utilisant uniquement des images et des annotations au niveau du mot. Des expériences approfondies sur diverses基准数据集(benchmarks),包括 CUTE80、SVT-Perspective、IIIT5k、SVT 和 ICDAR 数据集,表明所提出的基于 AON 的方法在不规则数据集中达到了最先进水平,在规则数据集中与主要现有方法相当。为了确保译文完全符合法语的表达习惯,我将对上述翻译进行调整:Des expériences approfondies sur divers jeux de données de référence, notamment CUTE80, SVT-Perspective, IIIT5k, SVT et ICDAR, montrent que la méthode proposée basée sur l'AON atteint des performances d'état de l'art dans les jeux de données irréguliers et est comparable aux principales méthodes existantes dans les jeux de données réguliers.