DiffusionGemma: 4x lokal KI
Google hat kürzlich das experimentelle Open-Source-Modell DiffusionGemma offiziell eingeführt, was einen wichtigen Wandel im Generierungsparadigma großer Sprachmodelle markiert. Das Modell gehört zur Gemma-Familie der vierten Generation und verwendet eine spärliche Mixed-Expertise-(MoE)-Architektur mit 26 Milliarden Parametern, wobei während des Inferenzvorgangs nur 3,8 Milliarden Parameter aktiviert werden. Im Gegensatz zum herkömmlichen autoregressiven Wort-für-Wort-Generieren überträgt DiffusionGemma die Idee der Bild-Diffusion in den Textbereich: Das Modell beginnt mit zufälligen Platzhaltern und verarbeitet diese durch mehrfache Vorwärtsspuren parallel, generiert dabei jeweils direkt 256 Tokens und konvergiert schließlich iterativ zu einem vollständigen Text. Diese Architektur hebt die Engpässe bei Rechenleistung für lokale Inferenzen grundlegend auf. Herkömmliche Modelle sind aufgrund ihrer wortweisen Vorhersage begrenzt, was zu einer geringen GPU-Auslastung führt, da sie von der Speicherbandbreite abhängen; DiffusionGemma hingegen bündelt und setzt die Berechnungsbelastungen gezielt frei. Auf NVIDIA H100 erreicht es eine Inferenzgeschwindigkeit von über 1.000 Tokens pro Sekunde, auf RTX 5090 sogar über 700 Tokens pro Sekunde, wodurch sich die Gesamtgeschwindigkeit um bis zu viermal steigern lässt. Dank bidirektionaler Aufmerksamkeitseffekte zeigt das Modell besonders starke Leistungen bei nichtlinearen Aufgaben wie Bearbeitung innerhalb von Zeilen, Code-Vervollständigung, mathematischen Graphstrukturen sowie Echtzeit-Selbstkorrektur. Google betont, dass DiffusionGema explizit für lokale Bereitstellungen und Umgebungen mit niedriger Parallelität ausgelegt ist. Obwohl die parallele Generierung die Geschwindigkeit erheblich steigert, liegt die gesamte Ausgabequalität immer noch leicht unter der von Standard-Gemma-4-Modellen, weshalb es sich nicht für Cloud-Services mit hoher QPS-Eignung eignet. Das Modell wird unter der Apache-2.0-Lizenz als Open Source bereitgestellt und benötigt nach Quantisierung lediglich 18 GB VRAM. Es unterstützt vollständig gängige Frameworks wie vLLM, MLX und Hugging Face Transformers und wurde speziell für die NVIDIA-Blackwell-Architektur sowie NVFP4-Präzision optimiert. Entwickler können jetzt Gewichte auf Hugging Face abrufen, um Experimente durchzuführen.
