HyperAIHyperAI

Command Palette

Search for a command to run...

À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte

Abstract

Les modèles modernes de diffusion latente (LDM) opèrent généralement dans des espaces latents de faible niveau issus d’auto-encodeurs variationnels (VAE), optimisés principalement pour la reconstruction au niveau des pixels. Afin de unifier la génération et la compréhension visuelles, une tendance émergente consiste à utiliser des caractéristiques à haute dimension issues d’encodeurs de représentation comme espaces latents génératifs. Toutefois, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l’espace de caractéristiques discriminatives manque de régularisation compacte, ce qui rend les modèles de diffusion sensibles à des latents hors variété, entraînant des structures d’objets inexactes ; et (2) la reconstruction au niveau des pixels intrinsèquement faible de l’encodeur entrave la capacité du générateur à apprendre une géométrie et une texture fine précises. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d’encodeurs orientés vers la compréhension à des tâches génératives. Nous introduisons une fonction objectif de reconstruction sémantique-pixel afin de régulariser l’espace latent, permettant ainsi de compresser à la fois l’information sémantique et les détails fins dans une représentation hautement compacte (96 canaux avec un downsampling spatial de 16×16). Ce design garantit que l’espace latent reste riche en sémantique tout en atteignant une reconstruction d’image de pointe, tout en restant suffisamment compact pour assurer une génération précise. En exploitant cette représentation, nous concevons un modèle unifié pour la génération d’images à partir de texte (T2I) et pour l’édition d’images. En comparaison avec divers espaces de caractéristiques, nous démontrons que notre approche atteint un niveau de pointe en reconstruction, une convergence plus rapide, ainsi que des gains substantiels de performance tant pour les tâches T2I que pour l’édition d’images, validant ainsi que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte | Papers | HyperAI