NVIDIA RTX AI optimiert FLUX.1 für Bilddaten mit niedriger Genauigkeit
Black Forest Labs, eines der führenden AI-Forschungslabors weltweit, hat mit dem FLUX.1 Kontext Modell den Bereich der Bildgenerierung grundlegend verändert. Diese neue Modellfamilie, die im Mai vorgestellt wurde, zeichnet sich durch eine verbesserte Benutzerführung und ein flexibles Editierverfahren aus, das sowohl Text- als auch Bildanweisungen akzeptiert. Das offene Gewichtsmodell FLUX.1 Kontext [dev] wird besonders für seine inkrementellen Bildbearbeitungsfähigkeiten gelobt und bietet eine Paradigmenverschiebung bei der Steuerung des Generierungsprozesses. Im Gegensatz zu traditionellen Methoden, die komplexe Prompts und schwer zu erstellende Masken oder Tiefen- und Kantenkarten erfordern, ermöglicht FLUX.1 Kontext [dev] eine intuitivere und flexiblere Benutzerschnittstelle. Die Benutzer können komplexere Bearbeitungsaufgaben in mehrstufige Prozesse aufteilen, wobei das Modell die semantische Integrität des Originalbildes über alle Stufen hinweg beibehält. NVIDIA hat Black Forest Labs bei der Optimierung dieses Modells für NVIDIA RTX GPUs unterstützt, indem sie NVIDIA TensorRT und Quantisierung einsetzten. Dies führt zu schnellerer Inferenz und geringeren VRAM-Anforderungen, was die lokale Ausführung des Modells auf Consumer-GPUs wie der RTX 5090 ermöglicht. Die FLUX.1 Kontext [dev] Modellstruktur besteht aus mehreren Kernkomponenten: einem Vision-Transformer-Backbone, einem Autoencoder, CLIP und T5. Ein wesentlicher Unterschied zu anderen FLUX.1-dev Varianten ist, dass Eingabebilder in Token umgewandelt werden, die dann mit den Ausgabetoken während des Diffusionsprozesses verkettet werden. Dies fast verdoppelt die Größen des Kontextfensters, was sowohl den Speicher- als auch den Rechenaufwand erhöht. Die Optimierung konzentriert sich daher vor allem auf den Transformer-Modul, der etwa 96% der Gesamtverarbeitungszeit beansprucht. Das bekannteste Element des Transformer-Architektur sind die allgemeinen Matrixmultiplikationsoperationen (GEMM) und die skalierten Punktmultiplikationsaufmerksamkeitsmechanismen (SDPA). Während die Forschung viel Aufmerksamkeit auf die Quantisierung von GEMM in niedrigen Präzisionen gerichtet hat, wurde weniger Arbeit an der Nutzung von niedrigen Präzisionen für SDPA geleistet. Ein bedeutender Beitrag stammt aus der SageAttention-Papierreihe. Der quantisierte SDPA-Schema für FP8 und FP4 ist ähnlich, wobei nur die Präzision für die Query-, Key- und Value-Projektionen variiert. Die Quantisierungsschritte werden mit dem TensorRT Model Optimizer durchgeführt, gefolgt von der Kernel-Fusion mit TensorRT für die spezifische Zielhardware. Die Performanceverbesserungen durch die Übergänge von BF16 zu FP8 und FP4 sind beachtlich. Tabelle 1 zeigt, dass das Modell in FP8 etwa doppelt so schnell läuft wie in BF16, während die Vorteile von FP4 im Vergleich zu FP8 geringer sind. Dies liegt daran, dass die Aufmerksamkeitsoperationen hauptsächlich in FP8 quantisiert werden, um numerische Stabilität zu gewährleisten, und die quadratische Berechnungskosten der Aufmerksamkeitsoperationen durch das längere Kontextfenster beeinträchtigt werden. Die Speicherverwendung des Modells wird ebenfalls signifikant reduziert. Abgesehen vom Transformer-Backbone, der etwa 2x und 3x Speichersparnis erreicht, wenn man von BF16 zu FP8 und FP4 übergeht, ist die Gesamtspeicherverminderung weniger dramatisch. Dennoch sind speicher-effiziente Modelle besonders wertvoll, da sie leichter auf Consumer-GPUs wie der RTX 5090 bereitgestellt werden können, was die Zugänglichkeit erheblich verbessert. Die Freigabe der FLUX.1 Kontext [dev] Gewichte auf Hugging Face, sowie die entsprechenden TensorRT-optimierten Varianten, macht dieses Modell für eine breitere Community zugänglich. Es ist bereits in ComfyUI und im Black Forest Labs Playground verfügbar, und eine NVIDIA NIM-Mikroserdienstversion wird im August erwartet. AI-Enthusiasten und Entwickler können die Torch-Varianten herunterladen und in ComfyUI verwenden, während Black Forest Labs einen Online-Playground zur Verfügung stellt, um das Modell zu testen. Zusätzlich hat Google die Veröffentlichung von Gemma 3n angekündigt, einem neuen multimodalen kleinen Sprachmodell, das ideal für die Ausführung auf NVIDIA GeForce RTX GPUs und der NVIDIA Jetson-Plattform für Edge-AI und Robotik geeignet ist. AI-Enthusiasten können die Gemma 3n-Modelle mit RTX-Beschleunigung in Ollama und Llama.cpp mit ihren bevorzugten Apps wie AnythingLLM und LM Studio verwenden. Entwickler können die Modelle mithilfe von Ollama leicht bereitstellen und von den RTX-Beschleunigungen profitieren. NVIDIA lädt zudem zur Teilnahme am virtuellen Plug and Play: Project G-Assist Plug-In Hackathon ein, der bis zum 16. Juli läuft. Interessierte können sich am 9. Juli von 10-11 Uhr PT an einer Webinar-Session beteiligen, um mehr über die Fähigkeiten und Grundlagen von Project G-Assist zu erfahren und an einer Live-Q&A-Sitzung teilzunehmen. Die Community kann auf der NVIDIA Discord-Server-Plattform zusammenkommen, um mit anderen Entwicklern und AI-Enthusiasten über Möglichkeiten der RTX-AI zu diskutieren. Zusammenfassend bietet FLUX.1 Kontext [dev] eine neue Ebene an Interaktivität und Kontrolle für die Bildbearbeitung, die die Kreativität der Benutzer fördert. Die Zusammenarbeit zwischen Black Forest Labs und NVIDIA sowie die Nutzung von TensorRT und Quantisierungstechniken haben dazu beigetragen, das Modell effizienter und zugänglicher zu machen. AI-Enthusiasten und Entwickler profitieren von dieser Technologie, indem sie komplexe Workflows vereinfachen und das volle Potenzial der generativen AI direkt auf ihren Desktops nutzen können.