il y a 6 mois

Résumé

La reconnaissance de texte dans les scènes (STR) permet aux ordinateurs de lire du texte présent dans des environnements naturels tels que des étiquettes d’objets, des panneaux de signalisation ou des instructions. La STR aide les machines à prendre des décisions éclairées, par exemple en déterminant quel objet saisir, dans quelle direction se diriger ou quel sera le prochain geste à accomplir. Dans l’ensemble des travaux consacrés à la STR, l’accent a toujours été mis sur la précision de reconnaissance. Peu d’attention a été accordée à la vitesse et à l’efficacité computationnelle, des aspects tout aussi cruciaux, notamment pour les machines mobiles contraintes en énergie. Dans cet article, nous proposons ViTSTR, une architecture STR à simple étape, simple et fondée sur un vision transformer (ViT) efficace en termes de calcul et de nombre de paramètres. Par rapport à une méthode de référence forte comme TRBA, qui atteint 84,3 % de précision, notre modèle ViTSTR léger atteint une précision compétitive de 82,6 % (84,2 % avec augmentation de données), tout en offrant une accélération de 2,4 fois, en utilisant seulement 43,4 % du nombre de paramètres et 42,2 % des FLOPS. La version « tiny » de ViTSTR atteint 80,3 % de précision (82,1 % avec augmentation de données), avec une vitesse 2,5 fois plus élevée, tout en nécessitant seulement 10,9 % du nombre de paramètres et 11,9 % des FLOPS. Avec augmentation de données, notre version de base de ViTSTR dépasse TRBA en précision (85,2 %, contre 83,7 % sans augmentation), tout en étant 2,3 fois plus rapide, bien qu’elle nécessite 73,2 % de paramètres supplémentaires et 61,5 % de FLOPS supplémentaires. En termes d’équilibre entre les performances, presque toutes les configurations de ViTSTR se situent à ou près de la frontière optimale, permettant de maximiser simultanément la précision, la vitesse et l’efficacité computationnelle.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Vision Par Ordinateur

OCR

Reconnaissance D'images

Vision Par Ordinateur

Tâche

Rowel Atienza

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Vision Par Ordinateur

OCR

Reconnaissance D'images

Vision Par Ordinateur

Tâche

Rowel Atienza

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes | Articles | HyperAI

Command Palette

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes

Rowel Atienza

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes

Rowel Atienza

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vision Transformer pour une reconnaissance rapide et efficace du texte dans les scènes

Rowel Atienza

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters