Régression Sensible à la Rotation pour la Détection de Texte Scénique Orienté

Le texte dans les images naturelles est d'orientations arbitraires, nécessitant une détection en termes de boîtes englobantes orientées. Généralement, un détecteur de texte multi-orienté implique deux tâches clés : 1) la détection de la présence du texte, qui est un problème de classification indépendant de l'orientation du texte ; 2) la régression des boîtes englobantes orientées, qui concerne l'orientation du texte. Les méthodes précédentes s'appuient sur des caractéristiques partagées pour les deux tâches, ce qui entraîne une dégradation des performances en raison de l'incompatibilité entre ces tâches. Pour résoudre ce problème, nous proposons d'effectuer la classification et la régression sur des caractéristiques différentes, extraites par deux branches du réseau conçues différemment. Plus précisément, la branche de régression extrait des caractéristiques sensibles à la rotation en faisant pivoter activement les filtres de convolution, tandis que la branche de classification extrait des caractéristiques invariantes à la rotation en regroupant les caractéristiques sensibles à la rotation. La méthode proposée, nommée Détecteur de Régression Sensible à la Rotation (RRD), atteint des performances d'état de l'art sur trois jeux de données de référence pour le texte scénique orienté, notamment ICDAR 2015, MSRA-TD500, RCTW-17 et COCO-Text. De plus, RRD réalise une amélioration significative sur un jeu de données d'une collection de navires, démontrant sa généralité pour la détection d'objets orientés.