Libérer les modèles de diffusion texte-image pour la perception visuelle

Les modèles de diffusion (DMs) sont devenus la nouvelle tendance des modèles génératifs et ont démontré une capacité remarquable à la synthèse conditionnelle. Parmi ceux-ci, les modèles de diffusion texte-à-image pré-entraînés sur de grandes collections de paires image-texte sont particulièrement contrôlables grâce à des prompts personnalisables. Contrairement aux modèles génératifs non conditionnels, qui se concentrent sur des attributs et des détails de bas niveau, les modèles texte-à-image de diffusion intègrent davantage de connaissances de haut niveau grâce à l’entraînement vision-langage préalable. Dans cet article, nous proposons VPD (Visual Perception with a pre-trained Diffusion model), un nouveau cadre qui exploite l’information sémantique d’un modèle de diffusion texte-à-image pré-entraîné dans des tâches de perception visuelle. À la place d’utiliser le décodeur de désébruitage pré-entraîné dans une chaîne de diffusion, nous l’employons simplement comme squelette, tout en cherchant à exploiter pleinement les connaissances apprises. Plus précisément, nous alimentons le décodeur de désébruitage avec des entrées textuelles adaptées et améliorons les caractéristiques textuelles à l’aide d’un adaptateur, ce qui permet une meilleure alignement avec l’étape pré-entraînée et favorise une interaction plus riche entre les contenus visuels et les prompts textuels. Nous proposons également d’utiliser les cartes d’attention croisée entre les caractéristiques visuelles et les caractéristiques textuelles afin de fournir une guidance explicite. Comparé à d’autres méthodes de pré-entraînement, nous montrons que les modèles de diffusion pré-entraînés vision-langage peuvent être adaptés plus rapidement aux tâches visuelles de fine-tuning grâce à VPD. Des expériences étendues sur la segmentation sémantique, la segmentation d’image par référence et l’estimation de profondeur démontrent l’efficacité de notre méthode. Notamment, VPD atteint un RMSE de 0,254 sur la tâche d’estimation de profondeur NYUv2 et un oIoU de 73,3 % sur la segmentation d’image par référence RefCOCO-val, établissant de nouveaux records sur ces deux benchmarks. Le code est disponible à l’adresse suivante : https://github.com/wl-zhao/VPD