Command Palette
Search for a command to run...
À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte
À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte
Abstract
Les modèles modernes de diffusion latente (LDM) opèrent généralement dans des espaces latents de faible niveau issus d’auto-encodeurs variationnels (VAE), optimisés principalement pour la reconstruction au niveau des pixels. Afin de unifier la génération et la compréhension visuelles, une tendance émergente consiste à utiliser des caractéristiques à haute dimension issues d’encodeurs de représentation comme espaces latents génératifs. Toutefois, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l’espace de caractéristiques discriminatives manque de régularisation compacte, ce qui rend les modèles de diffusion sensibles à des latents hors variété, entraînant des structures d’objets inexactes ; et (2) la reconstruction au niveau des pixels intrinsèquement faible de l’encodeur entrave la capacité du générateur à apprendre une géométrie et une texture fine précises. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d’encodeurs orientés vers la compréhension à des tâches génératives. Nous introduisons une fonction objectif de reconstruction sémantique-pixel afin de régulariser l’espace latent, permettant ainsi de compresser à la fois l’information sémantique et les détails fins dans une représentation hautement compacte (96 canaux avec un downsampling spatial de 16×16). Ce design garantit que l’espace latent reste riche en sémantique tout en atteignant une reconstruction d’image de pointe, tout en restant suffisamment compact pour assurer une génération précise. En exploitant cette représentation, nous concevons un modèle unifié pour la génération d’images à partir de texte (T2I) et pour l’édition d’images. En comparaison avec divers espaces de caractéristiques, nous démontrons que notre approche atteint un niveau de pointe en reconstruction, une convergence plus rapide, ainsi que des gains substantiels de performance tant pour les tâches T2I que pour l’édition d’images, validant ainsi que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.