Command Palette
Search for a command to run...
FARMER : Transformateur autoregressif par flux sur les pixels
Guangting Zheng Qinyu Zhao Tao Yang Fei Xiao Zhijie Lin Jie Wu Jiajun Deng Yanyong Zhang Rui Zhu

Résumé
La modélisation directe de la vraisemblance explicite de la distribution des données brutes constitue un enjeu central en apprentissage automatique, permettant les succès d’échelle observés dans les grands modèles linguistiques grâce à une modélisation autoregressive. Toutefois, la modélisation autoregressive continue appliquée aux données visuelles en pixels souffre de séquences extrêmement longues et d’espaces à haute dimension. Dans cet article, nous proposons FARMER, un nouveau cadre générique end-to-end qui unifie les flows de normalisation (Normalizing Flows, NF) et les modèles autoregressifs (AR) afin d’obtenir une estimation tractable de la vraisemblance et une synthèse d’images de haute qualité directement à partir de pixels bruts. FARMER utilise un flow autoregressif inversible pour transformer les images en séquences latentes, dont la distribution est modélisée de manière implicite par un modèle autoregressif. Pour atténuer la redondance et la complexité inhérentes à la modélisation au niveau des pixels, nous introduisons un schéma de réduction de dimension auto-supervisé qui partitionne les canaux latents du flow NF en groupes informatifs et redondants, permettant ainsi une modélisation AR plus efficace et performante. En outre, nous proposons un schéma de distillation en une seule étape pour accélérer significativement la vitesse d’inférence, ainsi qu’un algorithme de guidage sans classificateur basé sur le rééchantillonnage afin d’améliorer la qualité de la génération d’images. Des expériences étendues montrent que FARMER atteint des performances compétitives par rapport aux modèles génératifs existants basés sur les pixels, tout en offrant des vraisemblances exactes et une entraînement évolutif.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.