HyperAIHyperAI
il y a 2 mois

Les Flots Normalisants sont des Modèles Générateurs Performants

Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
Les Flots Normalisants sont des Modèles Générateurs Performants
Résumé

Les Flots Normalisants (NFs) sont des modèles basés sur la vraisemblance pour des entrées continues. Ils ont montré des résultats prometteurs dans les tâches d'estimation de densité et de modélisation générative, mais ont reçu relativement peu d'attention ces dernières années. Dans ce travail, nous démontrons que les NFs sont plus puissants qu'on ne le pensait auparavant. Nous présentons TarFlow : une architecture simple et évolutique qui permet des modèles NF à haute performance. TarFlow peut être considéré comme une variante basée sur les Transformers des Flots Autoregressifs Masqués (MAFs) : il se compose d'une pile de blocs autoregressifs de Transformers appliqués à des patches d'images, en alternant la direction de l'autorégression entre les couches. TarFlow est facile à entraîner de bout en bout et est capable de modéliser et générer directement des pixels. Nous proposons également trois techniques clés pour améliorer la qualité des échantillons : l'augmentation par bruit gaussien pendant l'entraînement, une procédure de débruitage post-entraînement, et une méthode efficace de guidage pour les configurations conditionnelles par classe et non conditionnelles. En combinant ces éléments, TarFlow établit de nouveaux records d'état de l'art dans l'estimation de la vraisemblance pour les images, surpassant largement les méthodes précédentes les plus performantes, et génère des échantillons dont la qualité et la diversité sont comparables aux modèles par diffusion, pour la première fois avec un modèle NF autonome. Nous mettons notre code à disposition sur https://github.com/apple/ml-tarflow.