Un réseau de base efficace en énergie et en calcul GPU pour la détection d'objets en temps réel

DenseNet conserve les caractéristiques intermédiaires avec des champs récepteurs diversifiés en les agrégant grâce à des connexions denses, ce qui lui permet de montrer de bonnes performances dans la tâche de détection d'objets. Bien que la réutilisation des caractéristiques permette à DenseNet de produire des caractéristiques robustes avec un nombre restreint de paramètres du modèle et d'opérations flottantes (FLOPs), le détecteur utilisant DenseNet comme tronc commun présente une vitesse relativement lente et une efficacité énergétique faible. Nous avons constaté que l'augmentation linéaire des canaux d'entrée par connexion dense entraîne un coût élevé d'accès à la mémoire, ce qui cause un surcoût de calcul et une consommation d'énergie accrue. Pour résoudre l'inefficacité de DenseNet, nous proposons une architecture économe en énergie et en calcul appelée VoVNet, composée d'une Agrégation Unique (One-Shot Aggregation - OSA). L'OSA non seulement adopte la force de DenseNet qui représente des caractéristiques diversifiées avec plusieurs champs récepteurs, mais aussi surmonte l'inefficacité de la connexion dense en agrégeant toutes les caractéristiques uniquement une fois dans les dernières cartes de caractéristiques. Pour valider l'efficacité de VoVNet en tant que réseau tronc commun, nous avons conçu des versions légères et à grande échelle de VoVNet et nous les avons appliquées à des détecteurs d'objets mono-étape et bi-étapes. Nos détecteurs basés sur VoVNet surpassent ceux basés sur DenseNet avec une vitesse deux fois plus rapide et une réduction de la consommation d'énergie comprise entre 1,6x et 4,1x. En plus de DenseNet, VoVNet dépasse également le tronc commun ResNet largement utilisé, avec une vitesse plus rapide et une meilleure efficacité énergétique. En particulier, les performances de détection d'objets petits ont été considérablement améliorées par rapport à DenseNet et ResNet.