vor 11 Tagen

FQ-ViT: Post-Training Quantization für vollständig quantisierte Vision Transformer

Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou

Abstract

Netzwerk-Quantisierung reduziert die Komplexität der Modellinferenz erheblich und wird bereits weit verbreitet in realen Anwendungen eingesetzt. Allerdings wurden die meisten bestehenden Quantisierungsverfahren hauptsächlich für Convolutional Neural Networks (CNNs) entwickelt und leiden unter schwerer Leistungseinbuße, wenn sie auf vollständig quantisierte Vision Transformers angewendet werden. In dieser Arbeit zeigen wir, dass viele dieser Schwierigkeiten auf starke interkanaläre Variationen in den Eingaben von LayerNorm zurückzuführen sind, und stellen eine systematische Methode namens Power-of-Two Factor (PTF) vor, um die Leistungseinbuße und die Inferenzkomplexität vollständig quantisierter Vision Transformers zu verringern. Darüber hinaus beobachten wir eine extrem ungleichmäßige Verteilung in den Aufmerksamkeitskarten und schlagen Log-Int-Softmax (LIS) vor, um diese Verteilung zu erhalten und die Inferenz durch die Verwendung von 4-Bit-Quantisierung und dem BitShift-Operator zu vereinfachen. Umfassende Experimente an verschiedenen transformerbasierten Architekturen und Benchmarks zeigen, dass unser Fully Quantized Vision Transformer (FQ-ViT) die bisherigen Ansätze übertrifft, selbst wenn auf den Aufmerksamkeitskarten eine niedrigere Bitbreite verwendet wird. Beispielsweise erreichen wir eine Top-1-Accuracy von 84,89 % mit ViT-L auf ImageNet und 50,8 mAP mit Cascade Mask R-CNN (Swin-S) auf COCO. Soweit uns bekannt ist, sind wir die Ersten, die eine verlustfreie Genauigkeitsdegradation (~1 %) bei vollständig quantisierten Vision Transformers erreichen. Der Quellcode ist unter https://github.com/megvii-research/FQ-ViT verfügbar.