FLUX.2 de Black Forest Labs : une nouvelle génération de modèles d’image générative ouverte, plus puissante et accessible grâce à Diffusers
Black Forest Labs a dévoilé FLUX.2, la nouvelle génération de modèles de génération d’images open source, succédant à la série FLUX.1. Contrairement à une simple mise à jour, FLUX.2 repose sur une architecture entièrement nouvelle, pré-entraînée de zéro, offrant des améliorations significatives en termes de performance, de flexibilité et d’efficacité. Ce modèle supporte à la fois la génération d’images à partir de texte (text-to-image) et d’images (image-to-image), et peut intégrer jusqu’à dix images de référence dans une même requête, en les citant par index ou par description naturelle, ce qui ouvre de nouvelles perspectives pour le contrôle de style et de composition. L’un des changements majeurs réside dans l’encodeur de texte : au lieu de deux encodeurs comme dans FLUX.1, FLUX.2 utilise un seul encodeur, Mistral Small 3.1, simplifiant le calcul des embeddings de prompt et permettant une longueur maximale de séquence de 512 tokens. Le modèle repose sur une architecture DiT (Diffusion Transformer) multimodale parallèle (MM-DiT), mais avec des optimisations clés : les paramètres d’attention modulés (AdaLayerNorm-Zero) sont partagés entre tous les blocs, et aucune couche n’utilise de biais, ce qui réduit la complexité et améliore la stabilité. De plus, les blocs de type « single-stream » dominent désormais (48 contre 8 dans FLUX.1), et leur fusion d’opérations (QKV avec FF) crée un bloc entièrement parallèle, plus efficace, avec une activation SwiGLU au lieu de GELU. L’inférence directe de FLUX.2[dev]-32B exige plus de 80 Go de VRAM, ce qui le rend inaccessible pour la plupart des GPU consommateurs. Cependant, Diffusers propose plusieurs solutions pour le rendre utilisable. L’offload CPU permet d’exécuter le modèle sur une H100 avec ~62 Go de VRAM. L’optimisation Flash Attention 3 accélère encore l’inférence sur les GPU Hopper. Pour les systèmes à ressources limitées, des solutions comme la quantification 4-bit (bitsandbytes) permettent d’utiliser le modèle sur une carte 24 Go, voire 18 Go avec une combinaison de quantification NF4 et d’encodage de texte distant. Le recours à un endpoint d’inférence pour l’encodeur de texte libère de la VRAM, tandis que l’offload par groupes (group_offloading) rend le modèle accessible même sur des GPU de 8 Go, à condition d’avoir 32 Go de RAM. Enfin, FLUX.2 s’impose comme un excellent candidat pour le fine-tuning via LoRA, malgré sa taille. Grâce à des techniques comme l’offload distant, le cache de latents, le gradient checkpointing, et l’entraînement en FP8 ou QLoRA, il est possible de l’entraîner sur des GPU consommateurs. Des scripts d’entraînement sont disponibles via Diffusers ou Ostris’ AI Toolkit, permettant de créer des LoRA personnalisées pour des styles spécifiques (ex. : tarots, art digital). Les résultats montrent une évolution notable entre la sortie du modèle pré-entraîné et celle après fine-tuning. FLUX.2 représente une avancée majeure dans les modèles de génération d’images open source, combinant puissance, modularité et accessibilité grâce à une architecture innovante et une écosystème d’optimisation robuste. Son potentiel pour les applications créatives, la personnalisation et l’expérimentation est immense, tout en restant aligné sur les principes d’ouverture et de collaboration de la communauté Hugging Face.
