FAST : Détecteur de texte à forme arbitraire plus rapide avec une représentation de noyau minimalistes

Nous proposons un cadre efficace et précis pour la détection de texte dans les scènes, nommé FAST (détection plus rapide de textes de forme arbitraire). Contrairement aux détecteurs avancés récents qui reposent sur des post-traitements complexes et des architectures de réseau manuellement conçues, entraînant une vitesse d'inférence faible, FAST intègre deux innovations. (1) Nous proposons une représentation nucléaire minimaliste (ne produisant qu'une seule canal) pour modéliser des textes de forme arbitraire, ainsi qu'un post-traitement parallèle sur GPU, permettant d'assembler efficacement les lignes de texte avec un surcoût négligeable en temps. (2) Nous menons une recherche d'architecture de réseau adaptée spécifiquement à la détection de texte, ce qui permet d'obtenir des caractéristiques plus puissantes que la plupart des architectures découvertes pour la classification d'images. Grâce à ces deux améliorations, FAST atteint un excellent compromis entre précision et efficacité sur plusieurs jeux de données exigeants, notamment Total Text, CTW1500, ICDAR 2015 et MSRA-TD500. Par exemple, FAST-T obtient un score F-mesure de 81,6 % à 152 FPS sur Total-Text, surpassant la méthode la plus rapide précédente de 1,7 point en précision tout en gagnant 70 FPS en vitesse. Avec une optimisation par TensorRT, la vitesse d'inférence peut être portée à plus de 600 FPS. Le code source et les modèles seront publiés sur https://github.com/czczup/FAST.