Ein statistischer Rahmen für die Low-bitwidth-Trainings von tiefen neuronalen Netzen

Vollständig quantisiertes Training (Fully Quantized Training, FQT), bei dem Aktivierungen, Gewichte und Gradienten eines neuronalen Netzwerks durch Quantisierung auf niedrige Bitbreiten reduziert werden, um die Trainingsgeschwindigkeit tiefer neuronalen Netze zu beschleunigen, stellt einen vielversprechenden Ansatz dar. Ein zentrales Problem bei FQT ist das Fehlen einer theoretischen Fundierung, insbesondere hinsichtlich der Auswirkungen der Gradientenquantisierung auf die Konvergenzeigenschaften. In diesem Artikel adressieren wir dieses Problem durch die Einführung eines statistischen Rahmens zur Analyse von FQT-Algorithmen. Wir betrachten den quantisierten Gradienten im FQT als stochastischen Schätzer seines hochpräzisen Gegenstücks – ein Verfahren, das als quantisierungsaware Training (Quantization-Aware Training, QAT) bekannt ist. Wir zeigen, dass der FQT-Gradient ein erwartungstreuer Schätzer des QAT-Gradienten ist, und diskutieren die Auswirkungen der Gradientenquantisierung auf dessen Varianz. Inspiriert durch diese theoretischen Ergebnisse entwickeln wir zwei neuartige Gradientenquantisierer, die eine geringere Varianz als den bestehenden per-Tensor-Quantisierer aufweisen. Bei der Trainings von ResNet-50 auf ImageNet erreicht unser 5-Bit-Block-Householder-Quantisierer lediglich eine Validierungs-Genauigkeitsverlust von 0,5 % im Vergleich zu QAT und ist damit vergleichbar mit der bestehenden INT8-Benchmark-Lösung.