HyperAIHyperAI
il y a 15 jours

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes

Rowel Atienza
Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes
Résumé

La reconnaissance de texte dans les scènes (STR) permet aux ordinateurs de lire du texte présent dans des environnements naturels tels que des étiquettes d’objets, des panneaux de signalisation ou des instructions. La STR aide les machines à prendre des décisions éclairées, par exemple en déterminant quel objet saisir, dans quelle direction se diriger ou quel sera le prochain geste à accomplir. Dans l’ensemble des travaux consacrés à la STR, l’accent a toujours été mis sur la précision de reconnaissance. Peu d’attention a été accordée à la vitesse et à l’efficacité computationnelle, des aspects tout aussi cruciaux, notamment pour les machines mobiles contraintes en énergie. Dans cet article, nous proposons ViTSTR, une architecture STR à simple étape, simple et fondée sur un vision transformer (ViT) efficace en termes de calcul et de nombre de paramètres. Par rapport à une méthode de référence forte comme TRBA, qui atteint 84,3 % de précision, notre modèle ViTSTR léger atteint une précision compétitive de 82,6 % (84,2 % avec augmentation de données), tout en offrant une accélération de 2,4 fois, en utilisant seulement 43,4 % du nombre de paramètres et 42,2 % des FLOPS. La version « tiny » de ViTSTR atteint 80,3 % de précision (82,1 % avec augmentation de données), avec une vitesse 2,5 fois plus élevée, tout en nécessitant seulement 10,9 % du nombre de paramètres et 11,9 % des FLOPS. Avec augmentation de données, notre version de base de ViTSTR dépasse TRBA en précision (85,2 %, contre 83,7 % sans augmentation), tout en étant 2,3 fois plus rapide, bien qu’elle nécessite 73,2 % de paramètres supplémentaires et 61,5 % de FLOPS supplémentaires. En termes d’équilibre entre les performances, presque toutes les configurations de ViTSTR se situent à ou près de la frontière optimale, permettant de maximiser simultanément la précision, la vitesse et l’efficacité computationnelle.

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes | Articles de recherche récents | HyperAI