ESPNetv2 : Un réseau neuronal convolutif léger, économe en énergie et à usage général

Nous présentons un réseau neuronal convolutif léger, économe en énergie et à usage général, ESPNetv2, pour modéliser des données visuelles et séquentielles. Notre réseau utilise des convolutions séparables dilatées de type groupe et profondeur pour apprendre des représentations à partir d'un champ récepteur effectif large avec moins d'opérations flottantes (FLOPs) et de paramètres. Les performances de notre réseau sont évaluées sur quatre tâches différentes : (1) la classification d'objets, (2) la segmentation sémantique, (3) la détection d'objets, et (4) le modèle de langage. Des expériences menées sur ces tâches, y compris la classification d'images sur le jeu de données ImageNet et le modèle de langage sur le jeu de données PenTree bank, montrent une performance supérieure de notre méthode par rapport aux méthodes les plus avancées actuellement disponibles. Notre réseau surpasses ESPNet de 4 à 5 % et possède 2 à 4 fois moins d'opérations flottantes (FLOPs) sur les jeux de données PASCAL VOC et Cityscapes. Par rapport à YOLOv2 sur la détection d'objets MS-COCO, ESPNetv2 offre une précision 4,4 % supérieure avec 6 fois moins d'opérations flottantes (FLOPs). Nos expériences montrent que ESPNetv2 est beaucoup plus économe en énergie que les méthodes efficaces existantes les plus avancées, notamment ShuffleNets et MobileNets. Notre code est open-source et disponible sur https://github.com/sacmehta/ESPNetv2.