HyperAIHyperAI
vor 3 Tagen

Quantisierung trifft auf dLLMs: Eine systematische Studie zur Post-Training-Quantisierung für Diffusions-LLMs

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, et al
Quantisierung trifft auf dLLMs: Eine systematische Studie zur Post-Training-Quantisierung für Diffusions-LLMs
Abstract

Neuere Fortschritte bei Diffusions-Großsprachmodellen (dLLMs) haben eine vielversprechende Alternative zu autoregressiven (AR) Großsprachmodellen für Aufgaben der natürlichen Sprachgenerierung eingeführt, indem sie eine vollständige Aufmerksamkeit sowie auf Entrauschung basierende Decodierstrategien nutzen. Dennoch bleibt die Bereitstellung dieser Modelle auf Edge-Geräten herausfordernd, da sie über eine enorme Anzahl an Parametern und hohe Ressourcenanforderungen verfügen. Während die Post-Training-Quantisierung (PTQ) sich als weit verbreitete Methode zur Kompression von AR-LLMs etabliert hat, bleibt ihre Anwendbarkeit auf dLLMs bisher weitgehend unerforscht. In dieser Arbeit präsentieren wir die erste systematische Studie zur Quantisierung von auf Diffusion basierenden Sprachmodellen. Zunächst identifizieren wir das Vorhandensein von Aktivierungs-Outliern, die durch ungewöhnlich hohe Aktivierungswerte gekennzeichnet sind und den dynamischen Bereich dominieren. Diese Outlier stellen eine zentrale Herausforderung für die Low-Bit-Quantisierung dar, da sie die präzise Erhaltung der Werte der überwiegenden Mehrheit erschweren. Weiterhin implementieren wir state-of-the-art-PTQ-Methoden und führen eine umfassende Evaluation über mehrere Aufgabentypen und Modellvarianten durch. Unser Analyseansatz ist an vier zentralen Dimensionen ausgerichtet: Bit-Tiefe, Quantisierungsmethode, Aufgabenkategorie und Modelltyp. Durch diese mehrperspektivische Bewertung liefern wir praktische Erkenntnisse über das Quantisierungsverhalten von dLLMs unter verschiedenen Konfigurationen. Wir hoffen, dass unsere Ergebnisse eine Grundlage für zukünftige Forschung im Bereich der effizienten Bereitstellung von dLLMs bilden werden. Alle Codes und experimentellen Setup werden zur Unterstützung der Forschungsgemeinschaft veröffentlicht.