HyperAIHyperAI

Command Palette

Search for a command to run...

Réinterpréter les modèles de reconnaissance de lignes de texte

Daniel Hernandez Diaz Siyang Qin Reeve Ingle Yasuhisa Fujii Alessandro Bissacco

Résumé

Dans cet article, nous étudions le problème de la reconnaissance de lignes de texte. Contrairement à la plupart des approches axées sur des domaines spécifiques tels que le texte en scène ou les documents manuscrits, nous explorons le problème général de la conception d'une architecture universelle capable d’extraire du texte à partir de n’importe quelle image, indépendamment de sa source ou de son modalité d’entrée. Nous considérons deux familles de décodeurs (Connectionist Temporal Classification, CTC, et Transformer) ainsi que trois modules d’encodeurs (LSTM bidirectionnels, attention auto-, et GRCLs), et menons des expériences approfondies afin de comparer leur précision et leur performance sur des jeux de données publics largement utilisés pour le texte en scène et les documents manuscrits. Nous constatons qu’une combinaison jusqu’ici peu étudiée dans la littérature — à savoir un encodeur basé sur l’attention auto- couplé à un décodeur CTC —, lorsqu’elle est combinée à un modèle linguistique externe et entraînée sur des données publiques et internes, surpasse toutes les autres configurations en termes de précision et de complexité computationnelle. Contrairement aux modèles basés sur le Transformer, courants dans la littérature, cette architecture peut traiter des entrées de longueur arbitraire, une exigence fondamentale pour la reconnaissance universelle des lignes. En utilisant un jeu de données interne recueilli à partir de multiples sources, nous mettons également en évidence les limites des jeux de données publics actuels pour évaluer la précision des systèmes de reconnaissance de lignes : la largeur d’image relativement étroite et la distribution restreinte de la longueur des séquences ne permettent pas d’observer la dégradation de la qualité de l’approche Transformer lors de la transcription de lignes longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp