HyperAIHyperAI
il y a 8 jours

DEER : Reconnaissleur End-to-End Indépendant de la Détection pour l'Identification de Texte dans les Scènes

Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
DEER : Reconnaissleur End-to-End Indépendant de la Détection pour l'Identification de Texte dans les Scènes
Résumé

Les détecteurs de texte scènes end-to-end récents ont connu une amélioration significative dans la reconnaissance d'instances de texte de forme arbitraire. Les approches courantes pour la détection de texte utilisent le pooling sur des régions d'intérêt ou des masques de segmentation afin de restreindre les caractéristiques à une seule instance de texte. Toutefois, cela rend difficile pour le décodeur de reconstruire des séquences correctes lorsque la détection est imprécise, par exemple lorsque certains caractères sont coupés. Étant donné qu’il est difficile de déterminer précisément les limites des mots à l’aide uniquement du détecteur, nous proposons un nouveau cadre, appelé DEER (Detection-agnostic End-to-End Recognizer), qui rompt avec cette dépendance étroite entre les modules de détection et de reconnaissance. À la place d’utiliser des régions détectées, notre méthode relie les deux modules à l’aide d’un seul point de référence par instance de texte. Cette approche permet au décodeur de reconnaître le texte indiqué par ce point de référence, en exploitant les caractéristiques extraites de toute l’image. Comme seule une unique référence est nécessaire pour la reconnaissance, notre méthode permet la détection de texte sans nécessiter de détecteur de forme arbitraire ni d’étiquetages de polygones bornants. Les résultats expérimentaux montrent que la méthode proposée obtient des performances compétitives sur des benchmarks de détection de texte régulier et de forme arbitraire. Une analyse approfondie révèle que DEER est robuste aux erreurs de détection. Le code source et les jeux de données seront rendus accessibles au public.

DEER : Reconnaissleur End-to-End Indépendant de la Détection pour l'Identification de Texte dans les Scènes | Articles de recherche récents | HyperAI