HyperAIHyperAI
il y a 11 jours

Pourquoi vous devriez essayer les données réelles pour la reconnaissance de texte dans les scènes

Vladimir Loginov
Pourquoi vous devriez essayer les données réelles pour la reconnaissance de texte dans les scènes
Résumé

Les travaux récents dans le domaine de la reconnaissance de texte ont permis d’atteindre de nouveaux sommets en termes de performances. Toutefois, pendant longtemps, le manque de grands jeux de données naturels annotés manuellement a contraint les chercheurs à utiliser des données synthétiques pour entraîner leurs modèles de reconnaissance de texte. Bien que les jeux de données synthétiques soient très volumineux (MJSynth et SynthTest, deux des jeux de données synthétiques les plus célèbres, comptent chacun plusieurs millions d’images), leur diversité peut s’avérer insuffisante par rapport à celle des jeux de données naturels tels que ICDAR et d’autres. Heureusement, les annotations de reconnaissance de texte récemment publiées pour le jeu de données OpenImages V5 offrent un nombre d’exemples comparable à celui des jeux de données synthétiques, tout en proposant une diversité accrue. Nous avons utilisé ces annotations avec une architecture de tête de reconnaissance de texte issue du modèle Yet Another Mask Text Spotter, et obtenu des résultats comparables aux meilleures performances actuelles (SOTA). Sur certains jeux de données, nous avons même surpassé les modèles SOTA précédents. Dans cet article, nous introduisons également un nouveau modèle de reconnaissance de texte. Le code de ce modèle est disponible.

Pourquoi vous devriez essayer les données réelles pour la reconnaissance de texte dans les scènes | Articles de recherche récents | HyperAI