HyperAIHyperAI
il y a 2 mois

Alignement texte-image pour la perception basée sur la diffusion

Neehar Kondapaneni; Markus Marks; Manuel Knott; Rogerio Guimaraes; Pietro Perona
Alignement texte-image pour la perception basée sur la diffusion
Résumé

Les modèles de diffusion sont des modèles génératifs dotés de capacités impressionnantes de synthèse d'images à partir de texte et ont suscité une nouvelle vague de méthodes créatives pour les tâches classiques d'apprentissage automatique. Cependant, la meilleure façon d'exploiter les connaissances perceptuelles de ces modèles génératifs pour les tâches visuelles reste une question ouverte. Plus précisément, il n'est pas clair comment utiliser l'interface de suggestion lorsqu'on applique des troncs communs de diffusion aux tâches visuelles. Nous constatons que des légendes générées automatiquement peuvent améliorer l'alignement texte-image et renforcer considérablement les cartes d'attention croisée du modèle, conduisant ainsi à de meilleures performances perceptuelles. Notre approche améliore l'état actuel de l'art (SOTA) dans le domaine du découpage sémantique basé sur la diffusion sur ADE20K et l'état actuel global de l'art pour l'estimation de profondeur sur NYUv2. De plus, notre méthode se généralise au cadre inter-domaines. Nous utilisons la personnalisation du modèle et des modifications des légendes pour aligner notre modèle sur le domaine cible, ce qui nous permet d'obtenir des améliorations par rapport aux baselines non alignées. Notre modèle de détection d'objets inter-domaines, formé sur Pascal VOC, obtient des résultats SOTA sur Watercolor2K. Notre méthode de segmentation inter-domaines, formée sur Cityscapes, obtient des résultats SOTA sur Dark Zurich-val et Nighttime Driving. Page du projet : https://www.vision.caltech.edu/tadp/. Code : https://github.com/damaggu/TADP.