Réinterpréter les modèles de reconnaissance de lignes de texte

Dans cet article, nous étudions le problème de la reconnaissance de lignes de texte. Contrairement à la plupart des approches axées sur des domaines spécifiques tels que le texte en scène ou les documents manuscrits, nous explorons le problème général de la conception d'une architecture universelle capable d’extraire du texte à partir de n’importe quelle image, indépendamment de sa source ou de son modalité d’entrée. Nous considérons deux familles de décodeurs (Connectionist Temporal Classification, CTC, et Transformer) ainsi que trois modules d’encodeurs (LSTM bidirectionnels, attention auto-, et GRCLs), et menons des expériences approfondies afin de comparer leur précision et leur performance sur des jeux de données publics largement utilisés pour le texte en scène et les documents manuscrits. Nous constatons qu’une combinaison jusqu’ici peu étudiée dans la littérature — à savoir un encodeur basé sur l’attention auto- couplé à un décodeur CTC —, lorsqu’elle est combinée à un modèle linguistique externe et entraînée sur des données publiques et internes, surpasse toutes les autres configurations en termes de précision et de complexité computationnelle. Contrairement aux modèles basés sur le Transformer, courants dans la littérature, cette architecture peut traiter des entrées de longueur arbitraire, une exigence fondamentale pour la reconnaissance universelle des lignes. En utilisant un jeu de données interne recueilli à partir de multiples sources, nous mettons également en évidence les limites des jeux de données publics actuels pour évaluer la précision des systèmes de reconnaissance de lignes : la largeur d’image relativement étroite et la distribution restreinte de la longueur des séquences ne permettent pas d’observer la dégradation de la qualité de l’approche Transformer lors de la transcription de lignes longues.