HyperAIHyperAI
vor 11 Tagen

HMQ: Hardware-freundlicher Block zur gemischtpräzisen Quantisierung für CNNs

Hai Victor Habi, Roy H. Jennings, Arnon Netzer
HMQ: Hardware-freundlicher Block zur gemischtpräzisen Quantisierung für CNNs
Abstract

Neuere Arbeiten auf dem Gebiet der Netzwerk-Quantisierung erzielten state-of-the-art-Ergebnisse mithilfe von Mixed-Precision-Quantisierung. Eine zwingende Voraussetzung für viele effiziente Hardware-Implementierungen auf Edge-Geräten ist, dass ihre Quantisierer gleichmäßig sind und Schwellwerte mit Potenzen von Zwei aufweisen. In dieser Arbeit stellen wir den Hardware-freundlichen Mixed-Precision-Quantisierungsblock (HMQ) vor, um dieser Anforderung gerecht zu werden. Der HMQ ist ein Mixed-Precision-Quantisierungsblock, der den Gumbel-Softmax-Schätzer neu interpretiert, um eine glatte Schätzung eines Parametersatzes aus zwei Quantisierungsparametern – nämlich Bitbreite und Schwellwert – zu ermöglichen. Mit dieser Methode durchsucht der HMQ einen endlichen Raum möglicher Quantisierungsverfahren. Empirisch wenden wir HMQs auf die Quantisierung von Klassifizierungsmodellen an, die auf CIFAR10 und ImageNet trainiert wurden. Für ImageNet quantisieren wir vier verschiedene Architekturen und zeigen, dass wir trotz der zusätzlichen Einschränkungen in unserem Quantisierungsansatz wettbewerbsfähige Ergebnisse erzielen, die in einigen Fällen sogar state-of-the-art sind.

HMQ: Hardware-freundlicher Block zur gemischtpräzisen Quantisierung für CNNs | Neueste Forschungsarbeiten | HyperAI