HyperAIHyperAI

Command Palette

Search for a command to run...

Atténuation de la distortion dans la génération d’images grâce aux modèles de diffusion multi-résolution

Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen

Résumé

Ce papier présente des améliorations innovantes des modèles de diffusion en intégrant un réseau multi-résolution original et une normalisation par couche dépendante du temps. Les modèles de diffusion ont acquis une grande notoriété en raison de leur efficacité dans la génération d’images de haute fidélité. Alors que les approches classiques s’appuient sur des architectures U-Net basées sur les convolutions, les architectures récentes fondées sur les Transformers ont démontré des performances et une scalabilité supérieures. Toutefois, les architectures Transformer, qui tokenisent les données d’entrée (par « patchification »), font face à un compromis entre fidélité visuelle et complexité computationnelle, en raison de la nature quadratique des opérations d’attention auto-associative par rapport à la longueur des tokens. Bien que des tailles de patch plus grandes permettent une efficacité accrue du calcul d’attention, elles peinent à capturer les détails visuels fins, entraînant des distorsions d’image. Pour relever ce défi, nous proposons d’enrichir le modèle de diffusion avec le réseau multi-résolution (DiMR), une architecture qui affine progressivement les caractéristiques à plusieurs échelles, en améliorant les détails du bas vers le haut de la résolution. Par ailleurs, nous introduisons une normalisation par couche dépendante du temps (TD-LN), une approche à faible coût en paramètres qui intègre des paramètres dépendants du temps dans la normalisation par couche afin d’injecter des informations temporelles et d’atteindre des performances supérieures. L’efficacité de notre méthode est démontrée sur le benchmark de génération d’ImageNet conditionné par classe, où les variantes DiMR-XL surpassent les modèles de diffusion antérieurs, établissant de nouveaux records d’état de l’art avec des scores FID respectivement de 1,70 sur ImageNet 256×256 et de 2,89 sur ImageNet 512×512. Page du projet : https://qihao067.github.io/projects/DiMR


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp