ABCNet v2 : Réseau adaptatif à courbes de Bézier pour la détection et l'identification en temps réel de texte en bout-en-bout

Le repérage de texte bout-en-bout (end-to-end text-spotting), visant à intégrer de manière unifiée la détection et la reconnaissance dans un même cadre, suscite un intérêt croissant en raison de la simplicité qu’il apporte à la combinaison de ces deux tâches complémentaires. Ce problème reste ouvert, notamment lorsqu’il s’agit de traiter des instances de texte de forme arbitraire. Les méthodes antérieures peuvent être globalement classées en deux catégories : basées sur les caractères et basées sur la segmentation. Ces approches nécessitent souvent des annotations au niveau des caractères et/ou des étapes de post-traitement complexes en raison de leurs sorties non structurées. Dans ce travail, nous abordons le repérage de texte bout-en-bout en proposant le Adaptive Bezier Curve Network v2 (ABCNet v2). Nos principales contributions sont les suivantes : 1) Pour la première fois, nous adaptons de manière dynamique la modélisation des textes de forme arbitraire à l’aide d’une courbe de Bézier paramétrée, offrant ainsi non seulement une sortie structurée, mais aussi une représentation contrôlable, en comparaison avec les méthodes basées sur la segmentation. 2) Nous introduisons une nouvelle couche, appelée BezierAlign, permettant d’extraire des caractéristiques convolutives précises pour des instances de texte de forme quelconque, ce qui améliore significativement la précision de reconnaissance par rapport aux méthodes antérieures. 3) Contrairement aux approches précédentes, souvent sujettes à des post-traitements complexes et à des hyperparamètres sensibles, ABCNet v2 adopte une chaîne de traitement simple, ne nécessitant comme seul post-traitement que la suppression non maximale (NMS). 4) Étant donné que la performance de la reconnaissance de texte dépend fortement de l’alignement des caractéristiques, ABCNet v2 intègre une convolution de coordonnées simple mais efficace, qui encode la position des filtres convolutifs, entraînant une amélioration notable avec un surcoût computationnel négligeable. Des expériences approfondies menées sur diverses bases de données standard bilingues (anglais et chinois) démontrent que ABCNet v2 atteint des performances de pointe tout en maintenant une très haute efficacité.