HyperAIHyperAI
il y a 11 jours

FQ-ViT : Quantification post-entraînement pour Transformer vision entièrement quantifié

Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou
FQ-ViT : Quantification post-entraînement pour Transformer vision entièrement quantifié
Résumé

La quantification des réseaux réduit de manière significative la complexité du débogage des modèles et est largement utilisée dans les déploiements du monde réel. Toutefois, la plupart des méthodes de quantification existantes ont été principalement conçues pour les réseaux de neurones convolutifs (CNN), et subissent une dégradation sévère lorsqu’elles sont appliquées aux transformateurs d’image entièrement quantifiés. Dans ce travail, nous démontrons que de nombreuses de ces difficultés proviennent d’une variation inter-canal importante dans les entrées de LayerNorm, et proposons une méthode systématique, appelée Power-of-Two Factor (PTF), afin de réduire la dégradation des performances et la complexité du débogage des transformateurs d’image entièrement quantifiés. En outre, en observant une distribution extrêmement non uniforme dans les cartes d’attention, nous introduisons Log-Int-Softmax (LIS), une méthode permettant de préserver cette distribution tout en simplifiant le débogage grâce à une quantification 4 bits et à l’opérateur BitShift. Des expériences approfondies menées sur diverses architectures basées sur les transformateurs et différents benchmarks montrent que notre modèle Fully Quantized Vision Transformer (FQ-ViT) surpasser les travaux antérieurs, même en utilisant une largeur de bits plus faible pour les cartes d’attention. Par exemple, nous atteignons une précision top-1 de 84,89 % sur ImageNet avec ViT-L, ainsi qu’un mAP de 50,8 avec Cascade Mask R-CNN (Swin-S) sur COCO. À notre connaissance, nous sommes les premiers à atteindre une dégradation de précision négligeable (~1 %) sur des transformateurs d’image entièrement quantifiés. Le code source est disponible à l’adresse suivante : https://github.com/megvii-research/FQ-ViT.

FQ-ViT : Quantification post-entraînement pour Transformer vision entièrement quantifié | Articles de recherche récents | HyperAI