HyperAIHyperAI
il y a 2 mois

Unir et conquérir : Synthèse multi-modale plug-and-play à l'aide de modèles de diffusion

Nair, Nithin Gopalakrishnan ; Bandara, Wele Gedara Chaminda ; Patel, Vishal M.
Unir et conquérir : Synthèse multi-modale plug-and-play à l'aide de modèles de diffusion
Résumé

La génération d'images photographiques satisfaisant plusieurs contraintes trouve un large éventail d'applications dans l'industrie de la création de contenu. Un obstacle majeur à la réalisation de cette tâche est la nécessité de données appariées comprenant toutes les modalités (c'est-à-dire, les contraintes) et leurs résultats correspondants. De plus, les méthodes existantes nécessitent une réentraîne avec des données appariées sur toutes les modalités pour introduire une nouvelle condition. Cet article propose une solution à ce problème basée sur les modèles probabilistes de diffusion débruitante (DDPMs). Notre choix des modèles de diffusion plutôt que d'autres modèles génératifs s'explique par leur structure interne flexible. Comme chaque étape d'échantillonnage dans le DDPM suit une distribution gaussienne, nous montrons qu'il existe une solution sous forme fermée pour générer une image en tenant compte de diverses contraintes. Notre méthode peut unifier plusieurs modèles de diffusion entraînés sur plusieurs sous-tâches et maîtriser la tâche combinée grâce à notre stratégie d'échantillonnage proposée. Nous introduisons également un nouveau paramètre de fiabilité qui permet d'utiliser différents modèles de diffusion pré-entraînés sur divers jeux de données lors du temps d'échantillonnage pour guider le processus vers le résultat souhaité, satisfaisant plusieurs contraintes. Nous menons des expériences sur diverses tâches multimodales standard pour démontrer l'efficacité de notre approche. Pour plus de détails, veuillez consulter : https://nithin-gk.github.io/projectpages/Multidiff/index.html

Unir et conquérir : Synthèse multi-modale plug-and-play à l'aide de modèles de diffusion | Articles de recherche récents | HyperAI