La performance des modèles de récupération texte-image se généralise-t-elle au-delà des requêtes formulées sous forme de légendes ?
La recherche d’images à partir de texte (T2I) désigne la tâche de récupérer toutes les images pertinentes par rapport à une requête textuelle. Les jeux de données populaires pour la recherche T2I, tels que Flickr30k, VG ou MS-COCO, utilisent des légendes d’images annotées — par exemple « un homme jouant avec un enfant » — comme substituts aux requêtes. Grâce à ces requêtes substituts, les modèles actuels d’apprentissage multimodal, tels que CLIP ou BLIP, obtiennent des performances remarquables. La principale raison réside dans le caractère descriptif des légendes, qui décrivent précisément le contenu d’une image. Toutefois, les requêtes T2I vont au-delà des simples descriptions présentes dans les paires image-légende. Par conséquent, ces jeux de données ne sont pas adaptés pour évaluer les méthodes sur des requêtes plus abstraites ou conceptuelles, telles que « vacances en famille ». Dans de telles requêtes, le contenu visuel est implicite plutôt que explicitement décrit. Dans ce papier, nous reproduisons les résultats T2I sur des requêtes descriptives et les généralisons aux requêtes conceptuelles. À cette fin, nous menons de nouvelles expérimentations sur une nouvelle base de benchmark T2I dédiée à la réponse aux requêtes conceptuelles, appelée ConQA. ConQA comprend 30 requêtes descriptives et 50 requêtes conceptuelles, appliquées à 43 000 images, avec plus de 100 images annotées manuellement par requête. Nos résultats, évalués sur des mesures établies, montrent que tant les grands modèles pré-entraînés (par exemple CLIP, BLIP et BLIP2) que les petits modèles (tels que SGRAF et NAAF) obtiennent des performances jusqu’à 4 fois supérieures sur les requêtes descriptives que sur les requêtes conceptuelles. Nous observons également que les modèles se comportent mieux sur les requêtes comportant plus de 6 mots, comme dans les légendes MS-COCO.