HyperAIHyperAI
il y a 2 mois

Dire, Dessiner et Répéter : Génération et Modification d'Images sur la Base d'Instructions Linguistiques Continuelles

Alaaeldin El-Nouby; Shikhar Sharma; Hannes Schulz; Devon Hjelm; Layla El Asri; Samira Ebrahimi Kahou; Yoshua Bengio; Graham W.Taylor
Dire, Dessiner et Répéter : Génération et Modification d'Images sur la Base d'Instructions Linguistiques Continuelles
Résumé

La génération conditionnelle d'images à partir de texte est un domaine de recherche actif, avec de nombreuses applications potentielles. Les recherches existantes se sont principalement concentrées sur la génération d'une seule image à partir des informations de conditionnement disponibles en une étape. Une extension pratique au-delà de la génération en une étape est un système qui génère une image itérativement, en tenant compte des entrées linguistiques ou des retours en cours. Cette tâche est considérablement plus complexe que les tâches de génération en une étape, car un tel système doit comprendre le contenu de ses images générées par rapport à l'historique des retours, aux retours actuels, ainsi qu'aux interactions entre les concepts présents dans l'historique des retours. Dans ce travail, nous présentons un modèle de génération d'images récurrent qui prend en compte à la fois la sortie générée jusqu'à l'étape actuelle et toutes les instructions passées pour la génération. Nous montrons que notre modèle est capable de générer le fond, d'ajouter de nouveaux objets et d'appliquer des transformations simples aux objets existants. Nous pensons que notre approche constitue une étape importante vers la génération interactive. Le code et les données sont disponibles à : https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/ .

Dire, Dessiner et Répéter : Génération et Modification d'Images sur la Base d'Instructions Linguistiques Continuelles | Articles de recherche récents | HyperAI