HyperAIHyperAI
il y a 11 jours

SRFormer : Transformateur pour la détection de texte intégrant la segmentation et la régression

Qingwen Bu, Sungrae Park, Minsoo Khang, Yichuan Cheng
SRFormer : Transformateur pour la détection de texte intégrant la segmentation et la régression
Résumé

Les techniques existantes de détection de texte peuvent être globalement classées en deux grandes catégories : les méthodes basées sur la segmentation et celles basées sur la régression. Les modèles de segmentation offrent une meilleure robustesse aux variations de police, mais nécessitent un post-traitement complexe, entraînant un surcoût computationnel élevé. Les méthodes basées sur la régression réalisent une prédiction consciente des instances, mais souffrent de limitations en termes de robustesse et d’efficacité des données en raison de leur dépendance aux représentations de haut niveau. Dans le cadre de notre recherche académique, nous proposons SRFormer, un modèle unifié basé sur DETR combinant segmentation et régression, visant à exploiter de manière synergique la robustesse intrinsèque des représentations de segmentation ainsi que la simplicité du post-traitement propre à la régression au niveau des instances. Nos analyses expérimentales indiquent que des prédictions de segmentation favorables peuvent être obtenues dès les premières couches du décodeur. À la lumière de ce constat, nous limitons l’intégration des branches de segmentation aux premières couches du décodeur, tout en appliquant une réduction progressive de la régression dans les couches suivantes, permettant ainsi d’obtenir des gains de performance tout en minimisant la charge computationnelle associée au masque. En outre, nous proposons un module d’amélioration des requêtes informées par le masque. Nous utilisons le résultat de segmentation comme un ROI doux naturel afin d’extraire des représentations de pixels robustes, lesquelles sont ensuite utilisées pour enrichir et diversifier les requêtes d’instances. Des expérimentations étendues sur plusieurs benchmarks ont produit des résultats convaincants, mettant en évidence la robustesse exceptionnelle, l’efficacité supérieure en apprentissage et en utilisation des données, ainsi que la performance de pointe de notre méthode. Notre code est disponible à l’adresse suivante : https://github.com/retsuh-bqw/SRFormer-Text-Det.

SRFormer : Transformateur pour la détection de texte intégrant la segmentation et la régression | Articles de recherche récents | HyperAI