Reconnaissance de texte scènes avec des modèles séquentiels autoregressifs permutés

Les méthodes STR sensibles au contexte utilisent généralement des modèles linguistiques autoregressifs (AR) internes. Les limites intrinsèques des modèles AR ont motivé le développement de méthodes à deux étapes basées sur des modèles linguistiques externes. Toutefois, l’indépendance conditionnelle du modèle externe par rapport à l’image d’entrée peut entraîner une correction erronée de prédictions correctes, causant des inefficacités importantes. Notre méthode, PARSeq, apprend un ensemble de modèles linguistiques autoregressifs internes à poids partagés via une modélisation linguistique par permutation. Elle unifie les inférences contextuelles non-autoregressives et contextuelles autoregressives, ainsi que le raffinement itératif à l’aide d’un contexte bidirectionnel. En s’appuyant sur des données d’entraînement synthétiques, PARSeq atteint des résultats de pointe (SOTA) sur les benchmarks STR (91,9 % de précision) et sur des jeux de données plus exigeants. Elle établit de nouveaux records SOTA (96,0 % de précision) lorsqu’elle est entraînée sur des données réelles. PARSeq est optimale en termes de compromis précision / nombre de paramètres, FLOPS et latence, grâce à sa structure simple et unifiée ainsi qu’à son traitement parallèle des tokens. En raison de son utilisation intensive de l’attention, elle se montre robuste face au texte orienté arbitrairement, fréquent dans les images du monde réel. Le code, les poids préentraînés et les données sont disponibles à l’adresse suivante : https://github.com/baudm/parseq.