HyperAIHyperAI
il y a 17 jours

Un cadre statistique pour l'entraînement à faible précision des réseaux de neurones profonds

Jianfei Chen, Yu Gai, Zhewei Yao, Michael W. Mahoney, Joseph E. Gonzalez
Un cadre statistique pour l'entraînement à faible précision des réseaux de neurones profonds
Résumé

L'entraînement entièrement quantifié (FQT), qui exploite des matériels à faible précision en quantifiant les activations, les poids et les gradients d'un modèle de réseau de neurones, constitue une approche prometteuse pour accélérer l'entraînement des réseaux de neurones profonds. Un défi majeur lié au FQT réside dans le manque de compréhension théorique, en particulier quant à l'impact de la quantification des gradients sur les propriétés de convergence. Dans cet article, nous abordons ce problème en proposant un cadre statistique pour analyser les algorithmes FQT. Nous considérons le gradient quantifié dans le FQT comme un estimateur stochastique de son équivalent à précision pleine, une procédure connue sous le nom d'entraînement sensible à la quantification (QAT). Nous démontrons que le gradient FQT est un estimateur sans biais du gradient QAT, et examinons l'effet de la quantification des gradients sur sa variance. Inspirés par ces résultats théoriques, nous développons deux nouveaux quantificateurs de gradients, dont nous montrons qu'ils présentent une variance inférieure à celle du quantificateur existant basé sur le tenseur entier. Pour l'entraînement de ResNet-50 sur ImageNet, notre quantificateur à bloc Householder à 5 bits atteint une perte de précision sur le jeu de validation de seulement 0,5 % par rapport au QAT, ce qui est comparable à la référence existante en INT8.

Un cadre statistique pour l'entraînement à faible précision des réseaux de neurones profonds | Articles de recherche récents | HyperAI