HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un jour

INT contre FP : Une étude approfondie des formats de quantification à faible précision et fine granularité

INT contre FP : Une étude approfondie des formats de quantification à faible précision et fine granularité

Résumé

Les architectures matérielles modernes d’intelligence artificielle, telles que l’architecture Blackwell d’Nvidia, adoptent de plus en plus des formats flottants à précision réduite (FP) afin de gérer les valeurs aberrantes omniprésentes dans les grands modèles linguistiques (LLM). Malgré cette tendance industrielle, une comparaison unifiée entre la quantification en format flottant (FP) et en format entier (INT) à différentes granularités fait encore défaut, laissant sans orientation claire la co-conception algorithmique et matérielle. Ce papier comble cette lacune en étudiant systématiquement les compromis entre les formats FP et INT. Nous mettons en évidence un point de croisement critique en performance : si les formats FP se distinguent dans la quantification à faible granularité, la comparaison à granularité fine (par blocs) s’avère plus nuancée. Notre analyse approfondie démontre que, pour les formats courants à 8 bits à granularité fine (par exemple, MX avec une taille de bloc de 32), MXINT8 surpasse significativement son homologue FP en termes d’exactitude algorithmique et d’efficacité matérielle. Toutefois, pour les formats à 4 bits, les formats FP (par exemple, MXFP4, NVFP4) conservent souvent un avantage en précision, bien que nous montrions que NVINT4 puisse dépasser NVFP4 lorsque des techniques de mitigation des valeurs aberrantes, telles que la rotation de Hadamard, sont appliquées. Nous introduisons également une méthode de découpage symétrique qui élimine le biais des gradients lors de l’entraînement en format entier à très bas bit à granularité fine, permettant ainsi un entraînement MXINT8 quasi sans perte de performance. Ces résultats remettent en question la trajectoire actuelle du matériel, démontrant qu’une approche FP universelle est sous-optimale, et plaident en faveur de formats entiers à granularité fine, notamment MXINT8, qui offrent un meilleur équilibre entre précision, consommation énergétique et efficacité pour les accélérateurs d’IA futurs.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp