HyperAIHyperAI

Command Palette

Search for a command to run...

iSEARLE : Amélioration de l'inversion textuelle pour la recherche d'images composées sans supervision

Lorenzo Agnolucci Alberto Baldrati Alberto Del Bimbo Marco Bertini

Résumé

Étant donné une requête composée d'une image de référence et d'une légende relative, la recherche d'images composites (CIR) vise à récupérer des images cibles visuellement similaires à l'image de référence tout en intégrant les modifications spécifiées dans la légende relative. L'utilisation intensive du travail manuel pour étiqueter des jeux de données par les méthodes supervisées entrave leur applicabilité généralisée. Dans ce travail, nous introduisons une nouvelle tâche, la recherche d'images composites sans supervision (ZS-CIR), qui aborde le CIR sans nécessiter un jeu de données d'entraînement étiqueté. Nous proposons une approche nommée iSEARLE (recherche d'images composites améliorée sans supervision avec inversion textuelle) qui consiste à mapper les informations visuelles de l'image de référence sous forme de jeton pseudo-mot dans l'espace d'embedding de tokens CLIP et à le combiner avec la légende relative. Pour favoriser la recherche sur ZS-CIR, nous présentons un ensemble de données de benchmark en domaine ouvert nommé CIRCO (recherche d'images composites sur des objets courants en contexte), le premier jeu de données CIR où chaque requête est étiquetée avec plusieurs vérités terrain et une catégorisation sémantique. Les résultats expérimentaux montrent que iSEARLE obtient des performances de pointe sur trois différents jeux de données CIR -- FashionIQ, CIRR et le proposé CIRCO -- ainsi que sur deux configurations supplémentaires d'évaluation, à savoir la conversion de domaine et la composition d'objets. Le jeu de données, le code et le modèle sont librement accessibles sur https://github.com/miccunifi/SEARLE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
iSEARLE : Amélioration de l'inversion textuelle pour la recherche d'images composées sans supervision | Articles | HyperAI