HyperAIHyperAI

Command Palette

Search for a command to run...

CompoDiff : Recherche d'images composites polyvalente avec diffusion latente

Gu Geonmo ; Chun Sanghyuk ; Kim Wonjae ; Jun HeeJae ; Kang Yoohoon ; Yun Sangdoo

Résumé

Ce document propose un nouveau modèle basé sur la diffusion, appelé CompoDiff, pour résoudre le problème de recherche d'images composées à vue zéro (ZS-CIR) en utilisant la diffusion latente. Le présent document introduit également un nouveau jeu de données synthétiques, nommé SynthTriplets18M, comprenant 18,8 millions d'images de référence, de conditions et de triplets d'images cibles correspondants pour entraîner des modèles CIR. CompoDiff et SynthTriplets18M remédient aux lacunes des approches CIR précédentes, telles que la faible généralisabilité due à l'échelle limitée des jeux de données et au nombre restreint de types de conditions. Non seulement CompoDiff atteint un nouvel état de l'art sur quatre benchmarks ZS-CIR, y compris FashionIQ, CIRR, CIRCO et GeneCIS, mais il permet également une recherche d'images composées plus polyvalente et contrôlable en acceptant diverses conditions, comme du texte négatif et des masques d'image. CompoDiff montre également la contrôlabilité de la force des conditions entre les requêtes textuelles et les requêtes d'image ainsi que le compromis entre la vitesse d'inférence et les performances, ce qui n'est pas possible avec les méthodes CIR existantes. Le code source et le jeu de données sont disponibles à l'adresse suivante : https://github.com/navervision/CompoDiff


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp