HyperAIHyperAI

Command Palette

Search for a command to run...

Classification et récupération d'images à granularité fine par combinaison de caractéristiques visuelles et textuelles localement regroupées

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

Résumé

Le texte contenu dans une image porte des sémantiques de haut niveau pouvant être exploitées pour atteindre une compréhension plus riche des images. En particulier, la simple présence de texte fournit un guide puissant qui devrait être utilisé pour aborder une diversité de tâches en vision par ordinateur, telles que la recherche d’images, la classification fine ou la réponse à des questions visuelles. Dans cet article, nous abordons le problème de la classification fine et de la recherche d’images en exploitant à la fois les informations textuelles et les indices visuels afin de comprendre la relation intrinsèque existant entre ces deux modalités. La nouveauté du modèle proposé réside dans l’utilisation d’un descripteur PHOC pour construire une « boîte de mots textuels », combinée à une encodage par vecteur de Fisher qui capture la morphologie du texte. Cette approche permet d’obtenir une représentation multimodale plus robuste pour cette tâche, et comme le montrent nos expériences, elle atteint des résultats de pointe sur deux tâches distinctes : la classification fine et la recherche d’images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp