HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes

Rowel Atienza

Résumé

La reconnaissance de texte dans les scènes (STR) permet aux ordinateurs de lire du texte présent dans des environnements naturels tels que des étiquettes d’objets, des panneaux de signalisation ou des instructions. La STR aide les machines à prendre des décisions éclairées, par exemple en déterminant quel objet saisir, dans quelle direction se diriger ou quel sera le prochain geste à accomplir. Dans l’ensemble des travaux consacrés à la STR, l’accent a toujours été mis sur la précision de reconnaissance. Peu d’attention a été accordée à la vitesse et à l’efficacité computationnelle, des aspects tout aussi cruciaux, notamment pour les machines mobiles contraintes en énergie. Dans cet article, nous proposons ViTSTR, une architecture STR à simple étape, simple et fondée sur un vision transformer (ViT) efficace en termes de calcul et de nombre de paramètres. Par rapport à une méthode de référence forte comme TRBA, qui atteint 84,3 % de précision, notre modèle ViTSTR léger atteint une précision compétitive de 82,6 % (84,2 % avec augmentation de données), tout en offrant une accélération de 2,4 fois, en utilisant seulement 43,4 % du nombre de paramètres et 42,2 % des FLOPS. La version « tiny » de ViTSTR atteint 80,3 % de précision (82,1 % avec augmentation de données), avec une vitesse 2,5 fois plus élevée, tout en nécessitant seulement 10,9 % du nombre de paramètres et 11,9 % des FLOPS. Avec augmentation de données, notre version de base de ViTSTR dépasse TRBA en précision (85,2 %, contre 83,7 % sans augmentation), tout en étant 2,3 fois plus rapide, bien qu’elle nécessite 73,2 % de paramètres supplémentaires et 61,5 % de FLOPS supplémentaires. En termes d’équilibre entre les performances, presque toutes les configurations de ViTSTR se situent à ou près de la frontière optimale, permettant de maximiser simultanément la précision, la vitesse et l’efficacité computationnelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes | Articles | HyperAI