HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Brückenschlag zwischen Versprechen und Leistung bei der Mikroskalierung der FP4-Quantisierung

Brückenschlag zwischen Versprechen und Leistung bei der Mikroskalierung der FP4-Quantisierung

Abstract

Neuere hardwarebeschleunigte Mikroskalierungs-4-Bit-Gleitkommadarstellungen wie MXFP4 und NVFP4, die auf NVIDIA- und AMD-GPUs unterstützt werden, versprechen eine Revolution bei der Inferenz großer Sprachmodelle (LLM). Ihre praktischen Vorteile bleiben jedoch bisher unbestätigt. In dieser Arbeit präsentieren wir die erste umfassende Studie zu MXFP4 und NVFP4 im Kontext der post-training-Quantisierung und decken Lücken zwischen den versprochenen und den tatsächlichen Leistungsmerkmalen auf. Unsere Analyse zeigt, dass aktuell beste Methoden mit FP4 Schwierigkeiten haben, bedingt durch zwei zentrale Probleme: (1) Die geringe Gruppengröße von NVFP4 neutralisiert bewährte Techniken zur Behandlung von Ausreißern formal; (2) Die Potenz-zwei-Skalen-Quantisierung bei MXFP4 führt aufgrund hoher induzierter Fehler erheblich zu Genauigkeitsverlusten. Um diese Lücke zu schließen, stellen wir Micro-Rotated-GPTQ (MR-GPTQ) vor – eine Variante des klassischen GPTQ-Quantisierungsalgorithmus, die den Quantisierungsprozess speziell an die Besonderheiten von FP4 anpasst, indem sie blockweise Hadamard-Transformationen sowie format-spezifische Optimierungen einsetzt. Wir untermauern unsere Methode mit einer Reihe hochleistungsfähiger GPU-Kerne, die die MR-GPTQ-Formatunterstützung mit vernachlässigbarem Overhead ermöglichen, durch Rotation-Fusion in die Gewichte und schnelle Online-Berechnung der Aktivierungen. Dies führt zu Beschleunigungen gegenüber FP16 von bis zu 3,6x pro Schicht und 2,2x insgesamt auf NVIDIA B200, sowie 6x pro Schicht und 4x insgesamt auf der RTX5090. Unsere umfangreiche empirische Evaluation zeigt, dass MR-GPTQ die Leistungsfähigkeit bestehender State-of-the-Art-Methoden erreicht oder sogar übertrifft und die Genauigkeit von MXFP4 signifikant steigert – bis hin zu einem Niveau, das sich dem von NVFP4 annähert. Wir schließen daraus, dass FP4 zwar keine automatische Verbesserung gegenüber INT4 darstellt, jedoch format-spezifische Ansätze wie MR-GPTQ ein neues, bisher unerreichtes Spektrum an Genauigkeits-Leistungs-Trade-offs erschließen können.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Brückenschlag zwischen Versprechen und Leistung bei der Mikroskalierung der FP4-Quantisierung | Forschungsarbeiten | HyperAI