HyperAIHyperAI
il y a 17 jours

Classification et récupération d'images à granularité fine par combinaison de caractéristiques visuelles et textuelles localement regroupées

Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
Classification et récupération d'images à granularité fine par combinaison de caractéristiques visuelles et textuelles localement regroupées
Résumé

Le texte contenu dans une image porte des sémantiques de haut niveau pouvant être exploitées pour atteindre une compréhension plus riche des images. En particulier, la simple présence de texte fournit un guide puissant qui devrait être utilisé pour aborder une diversité de tâches en vision par ordinateur, telles que la recherche d’images, la classification fine ou la réponse à des questions visuelles. Dans cet article, nous abordons le problème de la classification fine et de la recherche d’images en exploitant à la fois les informations textuelles et les indices visuels afin de comprendre la relation intrinsèque existant entre ces deux modalités. La nouveauté du modèle proposé réside dans l’utilisation d’un descripteur PHOC pour construire une « boîte de mots textuels », combinée à une encodage par vecteur de Fisher qui capture la morphologie du texte. Cette approche permet d’obtenir une représentation multimodale plus robuste pour cette tâche, et comme le montrent nos expériences, elle atteint des résultats de pointe sur deux tâches distinctes : la classification fine et la recherche d’images.