TiDAR: Schneller und präziser mit KI-Verfahren
In der aktuellen Ära künstlicher Intelligenz, in der große Sprachmodelle wie ChatGPT tief in Alltag und Arbeitsabläufe integriert sind, bleibt ein zentrales Problem bestehen: die langsame Antwortzeit bei der Textgenerierung. Trotz leistungsstarker Hardware wird die Effizienz durch einen kritischen Engpass behindert – die ständige Übertragung der Modellgewichte zwischen Systemmemory und GPU-VRAM. Während die eigentliche Berechnung extrem schnell erfolgt, wartet die GPU lange auf neue Daten, was zu einer erheblichen Verschwendung von Rechenleistung führt. Bisherige Lösungsansätze wie spekulative Dekodierung nutzen kleinere, weniger intelligente Modelle zur Voraussage mehrerer Tokens, die dann vom Hauptmodell überprüft werden. Doch diese Methode ist ineffizient, da viele Vorschläge abgelehnt werden müssen. Alternativ bieten parallele Diffusionsmodelle hohe Geschwindigkeit, leiden aber unter mangelnder Sprachkohärenz und Genauigkeit. Die Forscher von Nvidia präsentieren nun eine neuartige Architektur namens TiDAR – „Think in Diffusion, Talk in Autoregression“. Das Konzept vereint die Stärken beider Ansätze: die parallele, schnelle Voraussage durch einen Diffusions-„Denker“ und die präzise, sequenzielle Überprüfung durch einen autoregressiven „Sprecher“. Bei TiDAR wird der Eingabewert nicht wie bei klassischen Modellen sequenziell verarbeitet, sondern als dreiteilige Folge konstruiert: bereits generierte Wörter, eine Lücke für zukünftige Tokens (markiert mit [MASK]) und ein „Entwurf“-Feld. In einem einzigen Vorwärtsdurchlauf verifiziert der autoregressive Teil gleichzeitig mehrere vorgeschlagene Tokens – etwa „on“ und „the“ – unter Verwendung eines kausalen Aufmerksamkeitsmasks, der sicherstellt, dass jedes Wort nur auf den vorherigen Kontext zugreifen darf. Aufgrund der parallelen Natur der GPU kann dies in einer einzigen Berechnung erfolgen, was die Effizienz deutlich steigert. Falls die Vorschläge inkorrekt sind, korrigiert das Modell sie sofort und ohne zusätzlichen Durchlauf: Es wählt den wahrscheinlichsten korrekten Token aus der berechneten Verteilung aus, schmeißt falsche Wörter weg und schneidet die restlichen Vorschläge ab. So entsteht eine mathematisch korrekte Ausgabe mit der Geschwindigkeit von Parallelverarbeitung. Gleichzeitig arbeitet der Diffusions-Teil bereits an der nächsten Voraussage, indem er die [MASK]-Plätze mit einem bidirektionalen Masking füllt, um den gesamten Kontext zu erfassen. Dieser Prozess läuft kontinuierlich ab: immer neue Entwürfe werden erstellt, während die vorherigen überprüft werden. Tests zeigen, dass TiDAR die Durchsatzrate gegenüber herkömmlichen autoregressiven Modellen erheblich steigert, ohne an Qualität zu verlieren. Im Vergleich zu EAGLE-3, einem führenden Ansatz basierend auf spekulativer Dekodierung, übertrifft TiDAR nicht nur die Geschwindigkeit, sondern auch die Genauigkeit, da die Vorschläge direkt aus dem Hauptmodell stammen und somit hochwertiger sind. Besonders bemerkenswert ist die „kostenlose Token“-Eigenschaft: Bis zu etwa 60 Tokens können in einem einzigen Durchlauf erzeugt werden, ohne dass die Latenz steigt – solange die GPU durch Datenübertragung begrenzt ist. Erst ab etwa 60 Tokens wird die Berechnung selbst zum Engpass. In der Fachcommunity wird TiDAR als bahnbrechend angesehen. Experten betonen, dass die Kombination von Parallelität und Korrektheit ein lang gesuchtes Gleichgewicht zwischen Geschwindigkeit und Qualität erreicht. Nvidia hat mit TiDAR eine Architektur vorgestellt, die die Rechenleistung von GPUs nahezu vollständig ausnutzt und damit einen Paradigmenwechsel im Bereich der Sprachmodell-Inferenz einleitet. Die Technologie könnte künftig nicht nur die Leistung von Chatbots, sondern auch von Code-Generatoren und anderen Anwendungen revolutionieren.
