Qu'y a-t-il de faux dans les comparaisons de modèles de reconnaissance de texte en scène ? Analyse des jeux de données et des modèles

De nombreuses nouvelles propositions de modèles de reconnaissance du texte en scène (STR) ont été introduites ces dernières années. Bien que chacune prétende avoir repoussé les limites de la technologie, une comparaison globale et équitable a largement manqué dans le domaine en raison des choix incohérents de jeux de données d'entraînement et d'évaluation. Cet article aborde cette difficulté par trois contributions majeures. Premièrement, nous examinons les incohérences des jeux de données d'entraînement et d'évaluation, ainsi que l'écart de performance qui en découle. Deuxièmement, nous présentons un cadre STR unifié en quatre étapes dans lequel la plupart des modèles STR existants s'intègrent. L'utilisation de ce cadre permet une évaluation approfondie des modules STR proposés précédemment et la découverte de combinaisons de modules jusqu'alors non explorées. Troisièmement, nous analysons les contributions module par module à la performance en termes de précision, de vitesse et de demande en mémoire, sous un ensemble cohérent de jeux de données d'entraînement et d'évaluation. Ces analyses éliminent les obstacles aux comparaisons actuelles pour mieux comprendre les gains de performance des modules existants.