Command Palette
Search for a command to run...
Comprendre avant de générer : formation autodidacte pour la génération d'images autoreprésentatives
Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

Résumé
Des études récentes ont mis en évidence l'importance des représentations visuelles de haute qualité dans la génération d'images, tout en soulignant les limites des modèles génératifs en matière de compréhension visuelle. À l'instar des modèles autoregressifs, initialement conçus pour le traitement du langage naturel, ces modèles font face à des défis similaires. Dans ce travail, nous présentons la première étude systématique sur les mécanismes d'application du paradigme de prédiction du prochain jeton au domaine visuel. Nous identifions trois propriétés clés qui entravent l'apprentissage des sémantiques visuelles de haut niveau : la dépendance locale et conditionnelle, l'incohérence sémantique entre les étapes, et le défaut de variation spatiale. Nous démontrons que ces problèmes peuvent être efficacement atténués en introduisant des objectifs auto-supervisés durant l'entraînement, conduisant ainsi à un nouveau cadre d'entraînement, appelé Self-guided Training for AutoRegressive models (ST-AR). Sans recourir à des modèles pré-entraînés, ST-AR améliore significativement la capacité de compréhension des images des modèles autoregressifs, tout en augmentant la qualité de génération. Plus précisément, ST-AR permet une amélioration d’environ 42 % du FID pour LlamaGen-L et de 49 % pour LlamaGen-XL, tout en conservant la même stratégie d’échantillonnage.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.