il y a 2 mois

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Résumé

Les modèles modernes de diffusion latente (LDM) opèrent généralement dans des espaces latents de faible niveau issus d’auto-encodeurs variationnels (VAE), optimisés principalement pour la reconstruction au niveau des pixels. Afin de unifier la génération et la compréhension visuelles, une tendance émergente consiste à utiliser des caractéristiques à haute dimension issues d’encodeurs de représentation comme espaces latents génératifs. Toutefois, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l’espace de caractéristiques discriminatives manque de régularisation compacte, ce qui rend les modèles de diffusion sensibles à des latents hors variété, entraînant des structures d’objets inexactes ; et (2) la reconstruction au niveau des pixels intrinsèquement faible de l’encodeur entrave la capacité du générateur à apprendre une géométrie et une texture fine précises. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d’encodeurs orientés vers la compréhension à des tâches génératives. Nous introduisons une fonction objectif de reconstruction sémantique-pixel afin de régulariser l’espace latent, permettant ainsi de compresser à la fois l’information sémantique et les détails fins dans une représentation hautement compacte (96 canaux avec un downsampling spatial de 16×16). Ce design garantit que l’espace latent reste riche en sémantique tout en atteignant une reconstruction d’image de pointe, tout en restant suffisamment compact pour assurer une génération précise. En exploitant cette représentation, nous concevons un modèle unifié pour la génération d’images à partir de texte (T2I) et pour l’édition d’images. En comparaison avec divers espaces de caractéristiques, nous démontrons que notre approche atteint un niveau de pointe en reconstruction, une convergence plus rapide, ainsi que des gains substantiels de performance tant pour les tâches T2I que pour l’édition d’images, validant ainsi que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 mois

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 mois

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte | Articles | HyperAI

Command Palette

À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

À la fois la sémantique et la reconstruction comptent : préparer les encodeurs de représentation à la génération et à l’édition d’images à partir de texte

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu

Shilong Zhang He Zhang Zhifei Zhang Chongjian Ge Shuchen Xue Shaoteng Liu Mengwei Ren Soo Ye Kim Yuqian Zhou Qing Liu