HyperAIHyperAI
il y a 11 jours

Détection en temps réel de texte scènes avec binarisation différentiable et fusion d'échelle adaptative

Minghui Liao, Zhisheng Zou, Zhaoyi Wan, Cong Yao, Xiang Bai
Détection en temps réel de texte scènes avec binarisation différentiable et fusion d'échelle adaptative
Résumé

Récemment, les méthodes de détection de texte dans les scènes basées sur la segmentation ont attiré une attention considérable dans le domaine de la détection de texte, en raison de leur supériorité dans la détection d’instances textuelles de formes arbitraires et de rapports d’aspect extrêmes, grâce à leurs descriptions au niveau des pixels. Toutefois, la majorité des approches actuelles basées sur la segmentation souffrent de procédures de post-traitement complexes et d’une robustesse aux échelles limitée de leurs modèles de segmentation. En effet, les algorithmes de post-traitement sont non seulement indépendants de l’optimisation du modèle, mais aussi coûteux en temps, tandis que la robustesse aux échelles est généralement améliorée par une fusion directe de cartes de caractéristiques multi-échelles. Dans cet article, nous proposons un module de binarisation différentiable (DB), intégrant l’étape cruciale de binarisation — l’une des phases les plus importantes du post-traitement — directement dans le réseau de segmentation. En étant optimisé conjointement avec ce module DB, le réseau de segmentation peut produire des résultats plus précis, améliorant ainsi l’exactitude de la détection de texte via une chaîne de traitement simple. En outre, nous introduisons un module efficace de fusion d’échelle adaptative (ASF), visant à renforcer la robustesse aux échelles grâce à une fusion adaptative des caractéristiques à différentes échelles. En combinant les modules DB et ASF avec le réseau de segmentation, notre détecteur de texte dans les scènes atteint de manière cohérente des résultats de pointe sur cinq benchmarks standards, tant en termes de précision de détection qu’en vitesse.

Détection en temps réel de texte scènes avec binarisation différentiable et fusion d'échelle adaptative | Articles de recherche récents | HyperAI