HyperAIHyperAI

Command Palette

Search for a command to run...

La performance des modèles de récupération texte-image se généralise-t-elle au-delà des requêtes formulées sous forme de légendes ?

Davide Mottin Matteo Lissandrini Dima Sivov Gil Lederman Eliezer Levy Nima Tavassoli Juan Manuel Rodriguez

Résumé

La recherche d’images à partir de texte (T2I) désigne la tâche de récupérer toutes les images pertinentes par rapport à une requête textuelle. Les jeux de données populaires pour la recherche T2I, tels que Flickr30k, VG ou MS-COCO, utilisent des légendes d’images annotées — par exemple « un homme jouant avec un enfant » — comme substituts aux requêtes. Grâce à ces requêtes substituts, les modèles actuels d’apprentissage multimodal, tels que CLIP ou BLIP, obtiennent des performances remarquables. La principale raison réside dans le caractère descriptif des légendes, qui décrivent précisément le contenu d’une image. Toutefois, les requêtes T2I vont au-delà des simples descriptions présentes dans les paires image-légende. Par conséquent, ces jeux de données ne sont pas adaptés pour évaluer les méthodes sur des requêtes plus abstraites ou conceptuelles, telles que « vacances en famille ». Dans de telles requêtes, le contenu visuel est implicite plutôt que explicitement décrit. Dans ce papier, nous reproduisons les résultats T2I sur des requêtes descriptives et les généralisons aux requêtes conceptuelles. À cette fin, nous menons de nouvelles expérimentations sur une nouvelle base de benchmark T2I dédiée à la réponse aux requêtes conceptuelles, appelée ConQA. ConQA comprend 30 requêtes descriptives et 50 requêtes conceptuelles, appliquées à 43 000 images, avec plus de 100 images annotées manuellement par requête. Nos résultats, évalués sur des mesures établies, montrent que tant les grands modèles pré-entraînés (par exemple CLIP, BLIP et BLIP2) que les petits modèles (tels que SGRAF et NAAF) obtiennent des performances jusqu’à 4 fois supérieures sur les requêtes descriptives que sur les requêtes conceptuelles. Nous observons également que les modèles se comportent mieux sur les requêtes comportant plus de 6 mots, comme dans les légendes MS-COCO.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
La performance des modèles de récupération texte-image se généralise-t-elle au-delà des requêtes formulées sous forme de légendes ? | Articles | HyperAI