HPTQ: hardwarefreundliche post-training Quantisierung

Neuronale Netzwerk-Quantisierung ermöglicht die Bereitstellung von Modellen auf Edge-Geräten. Eine wesentliche Voraussetzung für deren Hardware-Effizienz ist, dass die Quantisierer hardwarefreundlich sind: gleichmäßig, symmetrisch und mit Potenzen von Zwei als Schwellenwerten. Sofern wir wissen, unterstützen derzeitige Methoden der post-training-Quantisierung diese drei Bedingungen gleichzeitig nicht. In dieser Arbeit stellen wir einen hardwarefreundlichen Framework für post-training-Quantisierung (HPTQ) vor, der dieses Problem durch eine synergetische Kombination mehrerer bekannter Quantisierungsverfahren löst. Wir führen eine großangelegte Studie über vier Aufgaben durch: Klassifikation, Objektdetektion, semantische Segmentierung und Pose-Schätzung, und zwar an einer Vielzahl unterschiedlicher Netzwerkarchitekturen. Unsere umfangreichen Experimente zeigen, dass unter hardwarefreundlichen Einschränkungen konkurrenzfähige Ergebnisse erzielt werden können.