HyperAIHyperAI

Command Palette

Search for a command to run...

FLUX.2 von Black Forest Labs mit Diffusers integriert

Black Forest Labs hat mit FLUX.2 die nächste Generation ihres Open-Source-Image-Generation-Modells vorgestellt, das als direkter Fortschritt zu FLUX.1 gilt – nicht als einfacher Ersatz. FLUX.2 basiert auf einer komplett neuen Architektur mit einem vereinfachten Text-Encoder, der nun auf Mistral Small 3.1 setzt, anstelle der zwei Text-Encoder aus der Vorgängerversion. Dies reduziert die Komplexität der Prompt-Embeddings und ermöglicht eine höhere Effizienz. Die Diffusion-Transformer-Struktur (DiT) bleibt grundsätzlich erhalten, folgt aber einem neuartigen Ansatz: Die Anzahl der „single-stream“-Blöcke wurde deutlich erhöht (48 gegenüber 38 bei FLUX.1), während die „double-stream“-Blöcke auf nur noch acht reduziert wurden. Dies führt zu einer signifikant höheren Auslastung der gemeinsamen Text- und Bildinformationen im Modell. Zudem wurden alle Bias-Parameter entfernt, und die Attention- und Feedforward-Teile sind nun vollständig parallelisiert – eine Verbesserung, die auch in der ViT-22B-Architektur vorgestellt wurde. Ein weiterer Fortschritt ist die gemeinsame Nutzung von Zeit- und Leitungsmodulationen über alle Blöcke hinweg, was die Trainierbarkeit und Stabilität erhöht. Die Inference von FLUX.2 ist ressourcenintensiv: Ohne Optimierungen werden über 80 GB VRAM benötigt. Um den Zugang zu erleichtern, bietet Hugging Face mehrere Ansätze an. Mit CPU-Offloading lässt sich die Nutzung auf etwa 62 GB reduzieren. Für Hopper-GPUs unterstützt FLUX.2 Flash Attention 3, was die Geschwindigkeit deutlich steigert. Für Nutzer mit begrenztem VRAM gibt es mehrere Quantisierungsoptionen: 4-Bit-Quantisierung (mit bitsandbytes) ermöglicht die Nutzung auf 24-GB-GPUs, während eine Kombination aus lokalem DiT und remote gehostetem Text-Encoder (über Inference Endpoints) die VRAM-Belastung auf unter 18 GB senkt. Für extrem begrenzte Systeme ist sogar Group Offloading mit 8 GB VRAM möglich – bei entsprechendem RAM (32 GB). Die Unterstützung für mehrere Referenzbilder (bis zu zehn) ist eine neue Stärke: Nutzer können sowohl durch Index („image 1“) als auch durch natürliche Sprache („the kangaroo“) auf Referenzbilder verweisen, was die Genauigkeit und Kontrolle bei der Bildgenerierung erhöht. Ein weiterer Schwerpunkt ist die LoRA-Fine-Tuning-Unterstützung. Aufgrund der hohen Ressourcenanforderungen ist das Training auf Consumer-GPUs bisher kaum möglich. Durch Kombination von Remote-Text-Encoder, Latent-Caching, Gradient Checkpointing, FP8-Training und QLoRA (mit 4-Bit-Quantisierung) gelingt es nun, das Modell effizient zu fine-tunen. Beispiele zeigen, dass mit einer Tarot-Karte-Datenbank erfolgreich ein LoRA-Modell trainiert wurde, das stilistisch konsistente Ergebnisse liefert. Die Trainingsparameter sind anpassbar, und die Integration in Tools wie Ostris’ AI Toolkit oder die standardmäßigen Diffusers-Skripte ist nahtlos. Insgesamt markiert FLUX.2 einen bedeutenden Fortschritt in der Open-Source-Image-Generation: Bessere Architektur, höhere Flexibilität, verbesserte Effizienz und erweiterte Anpassungsmöglichkeiten. Die Einführung von mehreren Ressourcenspar-Techniken macht das Modell für eine breitere Community zugänglich. Experten bewerten FLUX.2 als einen Meilenstein in der Entwicklung von Multimodal-Modellen, der die Grenzen von KI-generierten Bildern erweitert – besonders durch die Kombination von Text, mehreren Referenzbildern und effizienten Fine-Tuning-Methoden. Black Forest Labs setzt mit FLUX.2 erneut Maßstäbe in der offenen KI-Entwicklung.

Verwandte Links

FLUX.2 von Black Forest Labs mit Diffusers integriert | Aktuelle Beiträge | HyperAI