HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP4STR : Une base simple pour la reconnaissance de texte dans les scènes à l’aide d’un modèle vision-langage pré-entraîné

Shuai Zhao Ruijie Quan Linchao Zhu Yi Yang

Résumé

Les modèles vision-langage pré-entraînés (VLMs) sont devenus les modèles fondamentaux par défaut pour de nombreuses tâches ultérieures. Toutefois, les méthodes de reconnaissance de texte dans les scènes continuent de privilégier des architectures de base pré-entraînées sur une seule modalité, à savoir la modalité visuelle, malgré le potentiel des VLMs à servir de lecteurs puissants de texte dans les scènes. Par exemple, CLIP est capable d’identifier de manière robuste des textes réguliers (horizontaux) ainsi que des textes irréguliers (tournés, courbés, flous ou partiellement masqués) dans les images. Profitant de ces avantages, nous transformons CLIP en un lecteur de texte dans les scènes et introduisons CLIP4STR, une méthode simple mais efficace pour la reconnaissance de texte dans les scènes (STR), fondée sur les encodeurs visuels et textuels de CLIP. Ce modèle comporte deux branches encodeur-décodeur : une branche visuelle et une branche cross-modale. La branche visuelle fournit une prédiction initiale à partir des caractéristiques visuelles, tandis que la branche cross-modale affine cette prédiction en corrigeant l’écart entre les caractéristiques visuelles et la sémantique du texte. Pour exploiter pleinement les capacités des deux branches, nous proposons un schéma de décodage dual « prédire-et-affiner » lors de l’inférence. Nous échelonnons CLIP4STR en augmentant la taille du modèle, les données d’entraînement préalable et les données d’entraînement, obtenant ainsi des performances de pointe sur 13 benchmarks de STR. En outre, une étude empirique approfondie est fournie afin d’améliorer la compréhension de l’adaptation de CLIP à la STR. Notre méthode établit ainsi une base simple mais puissante pour les recherches futures sur la STR à l’aide de VLMs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp