HyperAI
Back to Headlines

Googles Gemini Diffusion beschleunigt Textgenerierung

vor 25 Tagen

Am 13. Juni 2025 präsentierte Google DeepMind Gemini Diffusion, ein experimentelles Forschungsmodell, das auf einem Diffusionsansatz beruht, um Text zu generieren. Dieser Ansatz unterscheidet sich grundlegend von traditionellen autoregressiven Modellen wie GPT und dem vorherigen Gemini, die Wörter schrittweise basierend auf dem vorherigen Wort erzeugen. Im Gegensatz dazu fangen Diffusionsmodelle mit zufälligem Rauschen an und verfeinern dieses allmählich zu kohärenten Sätzen. Diese Methode erhöht die Generierungsgeschwindigkeit erheblich und kann Kohärenz und Konsistenz verbessern. Gemini Diffusion ist derzeit als experimentelle Demo verfügbar, und Interessierte können sich hier für die Warteliste anmelden. Bei der DeepMind-Konferenz VB Transform am 24.–25. Juni 2025 in San Francisco wird es sich um diese Paradigmenverschiebung und ihre praktische Umsetzung bei Google DeepMind, LinkedIn und anderen führenden Unternehmen im Bereich Unternehmenskünstliche Intelligenz (KI) drehen. Unterschiede zwischen Diffusion und Autoregression Autoregressive Modelle erzeugen Text sequenziell, wobei jedes Wort basierend auf dem vorherigen vorausgesagt wird. Diese Methode gewährleistet eine starke Kohärenz und Kontextverfolgung, kann aber rechnerisch aufwendig und langsam sein, insbesondere für längere Texte. Diffusionsmodelle beginnen hingegen mit zufälligem Rauschen, das schrittweise in einen sinnvollen Output verfeinert wird. Dabei können Textblöcke parallel verarbeitet werden, was die Generierung von Segmenten oder ganzen Sätzen erheblich beschleunigt. Zudem können Fehler während des Verfeinerungsprozesses korrigiert werden, was die Genauigkeit erhöht und Halluzinationen reduziert. Allerdings gibt es möglicherweise Handicaps in Bezug auf feingranulare Genauigkeit und Token-Level-Kontrolle. Wie funktioniert die Diffusionsbasierte Textgenerierung? Während des Trainings lernen Diffusionsmodelle, einen Satz durch schrittweise Rauschzufügungen zu korrumpieren, bis er vollständig unkenntlich ist. Das Modell wird dann trainiert, diesen Prozess rückwärts zu laufen, indem es lernen muss, das Rauschen wieder zu entfernen, um den ursprünglichen Satz zu rekonstruieren. Dieser iterativen Verfeinerungsschritt ermöglicht es, die gesamte Verteilung plausibler Sätze im Trainingsdatensatz zu modellieren. Obwohl die spezifischen Details von Gemini Diffusion noch nicht veröffentlicht wurden, folgt das typische Trainingsverfahren für Diffusionsmodelle den folgenden Schritten: Vorwärts-Diffusion: Rauschen wird fortschreitend zu jedem Sample im Trainingsdatensatz hinzugefügt, oft über 500 bis 1,000 Zyklen, bis es nicht mehr vom zufälligen Rauschen zu unterscheiden ist. Rückwärts-Diffusion: Das Modell lernt, jeden Schritt des Rauschhinzufügungsprozesses rückgängig zu machen, indem es lernen muss, ein korrumpierter Satz allmählich wieder aufgebaut wird. Dieser Prozess wird mit Millionen von diversen Samples und verschiedenen Rauschniveaus wiederholt, sodass das Modell eine zuverlässige Rauschentfernungs-Funktion lernt. Ein trainiertes Modell kann neue Sätze erzeugen, wobei es eine Bedingung oder Eingabe benötigt, um die Generierung in die gewünschte Richtung zu lenken. Diese Bedingung wird in jeden Schritt des Rauschentfernungsprozesses eingefügt, um den anfänglichen Rauschblock in strukturierten und kohärenten Text zu verwandeln. Vor- und Nachteile von Diffusionsmodellen Brendan O’Donoghue, Forschungswissenschaftler bei Google DeepMind und einer der Leiter des Gemini Diffusion-Projekts, erläuterte in einem Interview mit VentureBeat einige Vorteile des Diffusionsansatzes gegenüber der Autoregression. Die wichtigsten Vorteile sind: Erhöhte Geschwindigkeit: Gemini Diffusion kann angeblich 1,000 bis 2,000 Tokens pro Sekunde erzeugen, während Gemini 2.5 Flash durchschnittlich 272.4 Tokens pro Sekunde produziert. Korrektur von Fehlern: Fehler können während des Verfeinerungsprozesses korrigiert werden, was die Genauigkeit verbessert. Nicht-kausales Denken: Bidirektionale Aufmerksamkeit kann das Modell bei Problemen wie Codierung und mathematischem Denken vorteilhaft sein. Die Hauptnachteile erwähnte O’Donoghue: Höhere Kosten für die Bereitstellung: Die Serve-Kosten sind höher als bei autoregressiven Modellen. Längere Latenz für das erste Token (TTFT): Autoregressive Modelle erzeugen das erste Token sofort, während Diffusionsmodelle erst dann das erste Token liefern können, wenn die gesamte Tokensequenz bereit ist. Leistungsbewertungen Google verglich Gemini Diffusion mit Gemini 2.0 Flash-Lite unter verschiedenen Benchmarks. Die Scores basieren auf der Anzahl der Male, bei denen das Modell die richtige Antwort beim ersten Versuch lieferte. Gemini Diffusion zeigte gute Leistungen in Codierungstests und Mathematik, während Gemini 2.0 Flash-Lite bessere Ergebnisse in Bereichen wie Schlussfolgerung, wissenschaftliches Wissen und mehrsprachige Fähigkeiten erzielte. | Benchmark | Gemini Diffusion | Gemini 2.0 Flash-Lite | |-----------|------------------|-----------------------| | LiveCodeBench (v6) | 30.9% | 28.5% | | BigCodeBench | 45.4% | 45.8% | | LBPP (v2) | 56.8% | 56.0% | | SWE-Bench Verified* | 22.9% | 28.5% | | HumanEval | 89.6% | 90.2% | | MBPP | 76.0% | 75.8% | | GPQA Diamond | 40.4% | 56.5% | | AIME 2025 | 23.3% | 20.0% | | BIG-Bench Extra Hard | 15.0% | 21.0% | | Global MMLU (Lite) | 69.1% | 79.0% | Nicht-agentische Bewertung (nur einzelne Bearbeitungsschritte), maximale Prompt-Länge von 32K. O’Donoghue betonte, dass der Leistungsunterschied zwischen den beiden Techniken bei kleineren Modellengrößen gering ist und Diffusionsmodelle in Domains, wo globale Konsistenz wichtig ist, Vorteile bieten könnten, wie zum Beispiel in der Codierung und Schlussfolgerung. Test von Gemini Diffusion VentureBeat hatte Zugang zur experimentellen Demo von Gemini Diffusion. Der erste Eindruck war die Geschwindigkeit. Bei den von Google vorgeschlagenen Prompts, einschließlich dem Bau interaktiver HTML-Apps wie Xylophone und Planet Tac Toe, wurden die Anfragen in weniger als drei Sekunden abgeschlossen, mit Geschwindigkeiten zwischen 600 und 1,300 Tokens pro Sekunde. Um die Leistung in einer realen Anwendung zu testen, wurde Gemini Diffusion gebeten, eine Benutzeroberfläche für eine Videochat-Anwendung zu erstellen, die ein Vorschaufenster für die Kamera und ein Lautstärkemesser für das Mikrofon des Geräts enthält. Innerhalb von zwei Sekunden erstellte Gemini Diffusion eine funktionsfähige Oberfläche mit Video-Vorschau und Audio-Meter. Obwohl dies keine komplexe Implementierung war, könnte es der Beginn eines Minimal Viable Products (MVP) sein, das mit weiteren Anregungen vervollständigt werden kann. Es ist zu beachten, dass Gemini 2.5 Flash ebenfalls eine funktionsfähige Oberfläche erstellte, jedoch langsamer (ungefähr sieben Sekunden). Gemini Diffusion verfügt auch über eine „Instant Edit“-Funktion, mit der Text oder Code in Echtzeit und mit minimalem Prompting bearbeitet werden kann. Diese Funktion ist effektiv für verschiedene Textbearbeitungsaufgaben, einschließlich Grammatikkorrekturen, Anpassungen an verschiedene Lesergruppen oder Hinzufügung von SEO-Schlüsselwörtern. Sie ist auch nützlich für Aufgaben wie Code-Refactoring, Hinzufügen neuer Features zu Anwendungen oder Konvertierung eines bestehenden Codebasises in eine andere Sprache. Unternehmensanwendungen von DLMs Jede Anwendung, die eine schnelle Reaktionszeit erfordert, kann von DLM-Technologie profitieren. Dazu gehören Echtzeit- und Low-Latency-Anwendungen wie Konversations-KI, Chatbots, Live-Transkription und -Übersetzung oder IDE-Autovervollständigung und Codier-Assistenten. O’Donoghue betonte, dass Diffusionsmodelle besonders in Anwendungen mit inline-Bearbeitung, wie zum Beispiel das Ändern eines Textstücks an Ort und Stelle, Vorteile bieten. DLMs haben auch bei Problemen im Bereich Logik, Mathematik und Codierung, dank der bidirektionalen Aufmerksamkeit, Vorteile. Zukunftsvisionen und Ökosystem Diffusionsmodelle sind noch jung, aber sie haben das Potenzial, die Art und Weise, wie Sprachmodelle aufgebaut werden, zu verändern. Nicht nur, dass sie Text viel schneller generieren als autoregressive Modelle, ihre Fähigkeit, Fehler zurückzuholen und zu korrigieren, könnte letztendlich zu genauereren Ergebnissen führen. Gemini Diffusion tritt in ein wachsendes Ökosystem von DLMs, darunter Merkur von Inception Labs und LLaDa, einem quelloffenen Modell von GSAI. Zusammen widerspiegeln diese Modelle den breiten Aufschwung hinter diffusionsbasierter Sprachgenerierung und bieten eine skalierbare, parallelisierbare Alternative zu traditionellen autoregressiven Architekturen.

Related Links