HyperAIHyperAI
il y a 2 mois

Un détecteur de texte de forme arbitraire en une seule étape basé sur l'apprentissage multi-tâche avec attention contextuelle

Pengfei Wang; Chengquan Zhang; Fei Qi; Zuming Huang; Mengyi En; Junyu Han; Jingtuo Liu; Errui Ding; Guangming Shi
Un détecteur de texte de forme arbitraire en une seule étape basé sur l'apprentissage multi-tâche avec attention contextuelle
Résumé

La détection de texte en scène de formes arbitraires a été une tâche difficile ces dernières années. Dans cet article, nous proposons un nouveau détecteur de texte basé sur la segmentation, nommé SAST, qui utilise un cadre d'apprentissage multitâche avec attention contextuelle basé sur un réseau neuronal convolutif entièrement convolutionnel (Fully Convolutional Network, FCN) pour apprendre diverses propriétés géométriques permettant la reconstruction de représentations polygonales des régions de texte. En tenant compte des caractéristiques séquentielles du texte, un Bloc d'Attention Contextuelle est introduit pour capturer les dépendances à long terme des informations pixeliques afin d'obtenir une segmentation plus fiable. Dans le post-traitement, une méthode d'affectation Point-to-Quad est proposée pour regrouper les pixels en instances de texte en intégrant à la fois des connaissances objets de haut niveau et des informations pixeliques de bas niveau en une seule étape. De plus, la représentation polygone du texte de forme arbitraire peut être extraite beaucoup plus efficacement grâce aux propriétés géométriques proposées. Les expériences menées sur plusieurs benchmarks, dont ICDAR2015, ICDAR2017-MLT, SCUT-CTW1500 et Total-Text, montrent que SAST atteint des performances meilleures ou comparables en termes de précision. De plus, l'algorithme proposé fonctionne à 27,63 images par seconde (FPS) sur SCUT-CTW1500 avec un H-mean de 81,0 % sur une carte graphique NVIDIA Titan Xp unique, surpassant la plupart des méthodes existantes basées sur la segmentation.

Un détecteur de texte de forme arbitraire en une seule étape basé sur l'apprentissage multi-tâche avec attention contextuelle | Articles de recherche récents | HyperAI