SESAME : Édition sémantique de scènes par ajout, manipulation ou suppression d'objets

Les avancées récentes dans la génération d’images ont donné naissance à des outils puissants pour l’édition sémantique d’images. Toutefois, les approches existantes ne peuvent soit traiter qu’une seule image, soit nécessiter une quantité importante d’informations supplémentaires. Elles ne sont pas capables de gérer l’ensemble complet des opérations d’édition, à savoir l’ajout, la manipulation ou la suppression de concepts sémantiques. Pour surmonter ces limites, nous proposons SESAME, un nouveau couple générateur-discriminateur destiné à l’édition sémantique de scènes par l’ajout, la manipulation ou la suppression d’objets. Dans notre cadre, l’utilisateur fournit les étiquettes sémantiques des régions à éditer, et le générateur synthétise les pixels correspondants. Contrairement aux méthodes précédentes qui utilisent un discriminateur dont l’entrée est simplement la concaténation triviale de la sémantique et de l’image, le discriminateur SESAME est composé de deux flux d’entrée indépendants, chacun traitant séparément l’image et sa sémantique, la seconde servant à manipuler les résultats du premier. Nous évaluons notre modèle sur un ensemble diversifié de jeux de données et rapportons des performances de pointe sur deux tâches : (a) la manipulation d’images et (b) la génération d’images conditionnées par des étiquettes sémantiques.