HyperAIHyperAI
il y a 3 mois

Atténuation de la distortion dans la génération d’images grâce aux modèles de diffusion multi-résolution

Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
Atténuation de la distortion dans la génération d’images grâce aux modèles de diffusion multi-résolution
Résumé

Ce papier présente des améliorations innovantes des modèles de diffusion en intégrant un réseau multi-résolution original et une normalisation par couche dépendante du temps. Les modèles de diffusion ont acquis une grande notoriété en raison de leur efficacité dans la génération d’images de haute fidélité. Alors que les approches classiques s’appuient sur des architectures U-Net basées sur les convolutions, les architectures récentes fondées sur les Transformers ont démontré des performances et une scalabilité supérieures. Toutefois, les architectures Transformer, qui tokenisent les données d’entrée (par « patchification »), font face à un compromis entre fidélité visuelle et complexité computationnelle, en raison de la nature quadratique des opérations d’attention auto-associative par rapport à la longueur des tokens. Bien que des tailles de patch plus grandes permettent une efficacité accrue du calcul d’attention, elles peinent à capturer les détails visuels fins, entraînant des distorsions d’image. Pour relever ce défi, nous proposons d’enrichir le modèle de diffusion avec le réseau multi-résolution (DiMR), une architecture qui affine progressivement les caractéristiques à plusieurs échelles, en améliorant les détails du bas vers le haut de la résolution. Par ailleurs, nous introduisons une normalisation par couche dépendante du temps (TD-LN), une approche à faible coût en paramètres qui intègre des paramètres dépendants du temps dans la normalisation par couche afin d’injecter des informations temporelles et d’atteindre des performances supérieures. L’efficacité de notre méthode est démontrée sur le benchmark de génération d’ImageNet conditionné par classe, où les variantes DiMR-XL surpassent les modèles de diffusion antérieurs, établissant de nouveaux records d’état de l’art avec des scores FID respectivement de 1,70 sur ImageNet 256×256 et de 2,89 sur ImageNet 512×512. Page du projet : https://qihao067.github.io/projects/DiMR