HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

Abstract

Moderne KI-Hardware wie die Blackwell-Architektur von Nvidia greift zunehmend auf niedrigpräzise Gleitkommazahlen-Formate (FP) zurück, um die weitverbreiteten Aktivierungs-Outlier in großen Sprachmodellen (LLMs) effizient zu bewältigen. Trotz dieser Branchentrend fehlt jedoch bislang eine einheitliche Vergleichsgrundlage zwischen Gleitkommazahlen (FP) und ganzzahliger (INT) Quantisierung über verschiedene Granularitätsstufen hinweg, was die gemeinsame Gestaltung von Algorithmen und Hardware ohne klare Leitlinien zurücklässt. In dieser Arbeit schließen wir diese Lücke, indem wir systematisch die Trade-offs zwischen FP- und INT-Formaten untersuchen. Wir identifizieren einen entscheidenden Leistungsübergang: Während FP bei grobgliedriger Quantisierung überlegen ist, gestaltet sich der Vergleich auf feingliedrigen (blockweise) Ebenen komplexer. Unsere umfassende Analyse zeigt, dass für gängige 8-Bit-Feingliederungsformate (z. B. MX mit Blockgröße 32) MXINT8 sowohl hinsichtlich algorithmischer Genauigkeit als auch hinsichtlich Hardware-Effizienz der FP-Variante überlegen ist. Bei 4-Bit-Formaten hingegen bietet FP (z. B. MXFP4, NVFP4) oft einen Genauigkeitsvorteil; wir zeigen jedoch, dass NVINT4 bei Anwendung von Outlier-Minderungstechniken wie Hadamard-Rotation die Leistung von NVFP4 übertrifft. Zudem stellen wir eine symmetrische Clipping-Methode vor, die den Gradienten-Bias bei der feingliedrigen, niedrigbitigen INT-Training behebt und eine nahezu verlustfreie Leistung bei der MXINT8-Training ermöglicht. Diese Ergebnisse stellen die derzeitige Hardware-Entwicklung in Frage und belegen, dass ein universell einsetzbares FP-Verfahren suboptimal ist. Stattdessen plädieren wir dafür, feingliedrige INT-Formate – insbesondere MXINT8 – als besseren Kompromiss zwischen Genauigkeit, Energieverbrauch und Effizienz für zukünftige KI-Acceleratoren zu nutzen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp