IFQ-Net : Réseaux de quantification en point fixe intégrés pour la vision embarquée

Le déploiement de modèles profonds sur des dispositifs embarqués constitue un défi persistant depuis la réussite remarquable des réseaux fondés sur l’apprentissage profond. Les réseaux à virgule fixe, qui représentent leurs données à l’aide de nombres à virgule fixe sur un faible nombre de bits, offrent des économies substantielles en mémoire et sont donc généralement privilégiés. Bien que les réseaux à virgule fixe actuels utilisent un nombre réduit de bits (par exemple 8 bits), les gains en mémoire restent insuffisants pour les dispositifs embarqués. D’un autre côté, les réseaux quantifiés, tels que XNOR-Net et HWGQNet, quantifient les données à 1 ou 2 bits, permettant des économies de mémoire encore plus importantes, mais conservent toutefois une grande quantité de données en virgule flottante. Dans cet article, nous proposons un réseau à virgule fixe dédié aux tâches de vision embarquée, en convertissant les données en virgule flottante présentes dans un réseau quantifié en données à virgule fixe. Pour surmonter la perte d’information liée à cette conversion, nous proposons de combiner les opérations sur données en virgule flottante sur plusieurs couches (par exemple convolution, normalisation par lot, couches de quantification) et de les convertir intégralement en virgule fixe. Nous appelons le réseau à virgule fixe obtenu par cette conversion intégrée IFQ-Net (Integrated Fixed-point Quantization Networks). Nous démontrons que notre IFQ-Net permet respectivement des économies de 2,16 fois en taille de modèle et de 18 fois en mémoire des cartes de caractéristiques au cours de l’exécution, tout en préservant une précision similaire sur ImageNet. Par ailleurs, en s’appuyant sur YOLOv2, nous avons conçu IFQ-Tinier-YOLO, un détecteur de visages basé sur un réseau à virgule fixe dont la taille du modèle est réduite de 256 fois (passant de 62 Mo à 246 Ko) par rapport à Tiny-YOLO. Nous illustrons les performances prometteuses de notre détecteur sur le plan du taux de détection sur le benchmark FDDB (Face Detection Data Set and Benchmark) ainsi que sur des résultats qualitatifs de détection de visages de petite taille sur le jeu de données Wider Face.