HyperAIHyperAI

Command Palette

Search for a command to run...

Qu'y a-t-il de faux dans les comparaisons de modèles de reconnaissance de texte en scène ? Analyse des jeux de données et des modèles

Jeonghun Baek Geewook Kim* Junyeop Lee Sungrae Park Dongyoon Han Sangdoo Yun Seong Joon Oh Hwalsuk Lee†

Résumé

De nombreuses nouvelles propositions de modèles de reconnaissance du texte en scène (STR) ont été introduites ces dernières années. Bien que chacune prétende avoir repoussé les limites de la technologie, une comparaison globale et équitable a largement manqué dans le domaine en raison des choix incohérents de jeux de données d'entraînement et d'évaluation. Cet article aborde cette difficulté par trois contributions majeures. Premièrement, nous examinons les incohérences des jeux de données d'entraînement et d'évaluation, ainsi que l'écart de performance qui en découle. Deuxièmement, nous présentons un cadre STR unifié en quatre étapes dans lequel la plupart des modèles STR existants s'intègrent. L'utilisation de ce cadre permet une évaluation approfondie des modules STR proposés précédemment et la découverte de combinaisons de modules jusqu'alors non explorées. Troisièmement, nous analysons les contributions module par module à la performance en termes de précision, de vitesse et de demande en mémoire, sous un ensemble cohérent de jeux de données d'entraînement et d'évaluation. Ces analyses éliminent les obstacles aux comparaisons actuelles pour mieux comprendre les gains de performance des modules existants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp