HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Ponctuer l'écart entre l'engagement et les performances pour la quantification FP4 en microéchelle

Ponctuer l'écart entre l'engagement et les performances pour la quantification FP4 en microéchelle

Résumé

Les formats récents à virgule flottante 4 bits, accélérés par le matériel tels que MXFP4 et NVFP4, pris en charge sur les GPU NVIDIA et AMD, promettent de révolutionner l'inférence des grands modèles linguistiques (LLM). Pourtant, leurs bénéfices pratiques restent encore à démontrer. Nous présentons la première étude exhaustive consacrée à MXFP4 et NVFP4 dans le cadre de la quantification post-entraînement, mettant en lumière un écart entre leurs promesses et leurs performances réelles. Notre analyse révèle que les méthodes de pointe rencontrent des difficultés avec le format FP4, dues à deux problèmes clés : (1) la petite taille de groupe propre à NVFP4 neutralise de manière théorique les techniques classiques de mitigation des valeurs aberrantes ; (2) la quantification à échelle à puissance de deux utilisée dans MXFP4 dégrade sévèrement la précision en raison d'une erreur induite élevée. Pour combler cet écart, nous proposons Micro-Rotated-GPTQ (MR-GPTQ), une variante de l'algorithme classique de quantification GPTQ, adaptée aux propriétés spécifiques du format FP4, en utilisant des transformations de Hadamard par blocs et des optimisations spécifiques au format. Nous soutenons cette approche par une série de noyaux GPU haute performance, permettant d’implémenter le format MR-GPTQ avec un surcoût négligeable, grâce à une fusion de rotation intégrée aux poids et au calcul rapide en temps réel des activations. Cela permet d’obtenir des accélérations allant jusqu’à 3,6× au niveau des couches et 2,2× en bout à bout sur la plateforme NVIDIA B200, et jusqu’à 6× au niveau des couches et 4× en bout à bout sur la RTX 5090. Notre évaluation expérimentale approfondie montre que MR-GPTQ atteint ou dépasse les performances de pointe en précision, améliorant significativement MXFP4, au point de le rapprocher des performances de NVFP4. Nous concluons que, bien que FP4 ne constitue pas une amélioration automatique par rapport à INT4, des méthodes spécialisées au format comme MR-GPTQ peuvent ouvrir une nouvelle ère de compromis entre précision et performance.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ponctuer l'écart entre l'engagement et les performances pour la quantification FP4 en microéchelle | Articles de recherche | HyperAI