Apple Relance les Normalizing Flows avec TarFlow et STARFlow pour une Génération d'Images Plus Efficace
Apple Révive les Flows Normalisants avec de Nouvelles Techniques Intégrant les Transformers À l’heure actuelle, la plupart des modèles d’IA génératifs d’images se classent en deux catégories principales : les modèles de diffusion, comme Stable Diffusion, et les modèles autoregressifs, comme GPT-4o d’OpenAI. Cependant, Apple a récemment publié deux études montrant les potentialités d’une troisième technique, souvent oubliée : les Flows Normalisants (NFs). Ces travaux suggèrent que cette méthode, lorsqu’elle est combinée avec des Transformers, peut être plus performante que ce qui était initialement supposé. Qu’est-ce que les Flows Normalisants ? Les Flows Normalisants sont des modèles d’IA qui transforment les données du monde réel (comme des images) en bruit structuré, puis inversent ce processus pour générer de nouvelles échantillons. Le principal avantage de ces modèles est leur capacité à calculer la probabilité exacte de chaque image génération, une propriété que les modèles de diffusion ne possèdent pas. Cela rend les flows particulièrement précieux pour les tâches nécessitant une compréhension précise de la probabilité des résultats. Cependant, les premiers modèles basés sur les flows ont produit des images floues, manquant du détails et de la diversité des systèmes de diffusion et des Transformers. C'est pourquoi ils sont devenus moins populaires au fil du temps. Les dernières recherches d'Apple cherchent à redorer le blason de cette technique. Étude n°1 : TarFlow Dans l'article "Normalizing Flows are Capable Generative Models", Apple présente un nouveau modèle appelé TarFlow, acronyme de Transformer AutoRegressive Flow. Ce modèle repose sur le principe des Transformers, remplaçant les couches préfabriquées utilisées dans les précédents modèles de flows par des blocs de Transformers. TarFlow divise les images en petits patchs et les génère par blocs, en prédiction chaque bloc en fonction de tous ceux qui ont précédé. Cette méthode autoregressive est similaire à celle utilisée par OpenAI pour la génération d'images. La principale différence réside dans le fait que TarFlow génère directement les valeurs des pixels sans tokeniser l'image en premier. Cette approche permet à Apple d'éviter la perte de qualité et la rigidité associées à l'utilisation d'un vocabulaire fixe de tokens. Malgré ses avancées, TarFlow présentait encore des limites, notamment lorsqu'il s'agissait de générer des images de grandes résolutions. Ce problème estaddressé dans la deuxième étude. Étude n°2 : STARFlow L' article "STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis" introduit STARFlow (Scalable Transformer AutoRegressive Flow), qui est une évolution significative de TarFlow. Le changement le plus notable est que STARFlow ne génère plus les images directement dans l'espace des pixels, mais travaille sur une version compressée de l'image, qu'il transmet ensuite à un décodeur qui rétablit la pleine résolution en fin de processus. Ce basculement vers l'espace latent signifie que STARFlow n'a pas besoin de prédire des millions de pixels directement ; il peut se concentrer sur la structure d'image globale, laissant les détails fins aux textures au décodeur. Apple a également repensé la gestion des prompts textuels. Au lieu de créer un encodeur de texte séparé, STARFlow peut intégrer des modèles de langage existants (comme le petit modèle de langage Gemma de Google) pour traiter la compréhension linguistique lorsqu'un utilisateur demande à générer une image. Cela permet au modèle de generation d'image de se concentrer uniquement sur l'amélioration des détails visuels. Comparaison entre STARFlow et GPT-4o d’OpenAI Alors qu'Apple revisite les flows normalisants, OpenAI, avec son modèle GPT-4o, prend une direction différente en allant au-delà des modèles de diffusion. GPT-4o traite les images comme des séquences de tokens discrets, de manière analogue aux mots dans une phrase. Lorsque vous demandez à ChatGPT de générer une image, le modèle prédit un token d'image à la fois, construisant l'image morceau par morceau. Cette approche offre une grande flexibilité à OpenAI, car le même modèle peut générer du texte, des images et de l'audio dans un flux unique et uniforme de tokens. Cependant, la génération token par token peut être lente, surtout pour des images de grande taille ou haute résolution, et elle est extrêmement gourmande en ressources computationnelles. Comme GPT-4o est entièrement exécuté dans le cloud, OpenAI n'est pas aussi contraint par la latence ou l'utilisation d'énergie. En somme, si OpenAI optimise ses modèles pour des usages dans des centres de données, Apple se concentre sur la miniaturisation et la performance pour les appareils mobiles. Évaluation de l'Industrie Les dernières recherches d'Apple sont saluées par les professionnels de l'IA pour leur innovation et leur potentiel. En redonnant vie aux flows normalisants, Apple pourrait apporter une nouvelle dimension à la génération d'images, en particulier pour des applications où l'exactitude des probabilités est cruciale. Cette approche pourrait également faciliter l’intégration de modèles d'IA avancés sur des appareils mobiles, une tendance essentielle pour rendre la technologie accessible à un plus grand nombre. Profil d'Apple Apple, connu pour ses produits de consommation haut de gamme et sa stratégie de protection de la vie privée, place toujours la performance et l'efficacité énergétique au cœur de ses innovations. Les travaux sur TarFlow et STARFlow reflètent cette philosophie en visant à créer des modèles d'IA qui peuvent être exécutés localement sur des appareils, assurant ainsi une meilleure confidentialité et des performances optimisées, even if they offer slightly less flexibility compared to cloud-based models. Conclusion Les études d'Apple sur les flows normalisants montrent une voie prometteuse pour l'avenir de la génération d'images. En intégrant les Transformers et en travaillant dans l'espace latent, STARFlow et TarFlow offrent une alternative de pointe qui se distingue par sa précision et son adaptabilité aux dispositifs mobiles. Ces avancées soulignent l'engagement d'Apple à innover tout en respectant des critères stricts de performance et de confiance.