ESPNetv2: Ein leichtgewichtiges, energieeffizientes und allgemein nutzbares konvolutionsbasiertes neuronales Netzwerk

Wir stellen ESPNetv2 vor, ein leichtgewichtiges, energieeffizientes und allgemein verwendbares Faltungsneuronales Netzwerk zur Modellierung visueller und sequentieller Daten. Unser Netzwerk verwendet gruppierte punktuelle und tiefe dilatierte trennbare Faltungen, um Darstellungen aus einem großen effektiven Rezeptionsfeld mit weniger FLOPs und Parametern zu lernen. Die Leistung unseres Netzwerks wurde anhand von vier verschiedenen Aufgaben evaluiert: (1) Objektklassifizierung, (2) semantische Segmentierung, (3) Objekterkennung und (4) Sprachmodellierung. Experimente zu diesen Aufgaben, einschließlich der Bildklassifizierung auf dem ImageNet-Datensatz und der Sprachmodellierung auf dem PenTree-Bank-Datensatz, zeigen die überlegene Leistung unserer Methode im Vergleich zu den aktuellen Stand der Technik-Methoden. Unser Netzwerk übertrifft ESPNet um 4-5% und hat bei den Datensätzen PASCAL VOC und Cityscapes 2-4-mal weniger FLOPs. Im Vergleich zu YOLOv2 bei der Objekterkennung auf dem MS-COCO-Datensatz liefert ESPNetv2 eine 4,4% höhere Genauigkeit bei 6-mal weniger FLOPs. Unsere Experimente zeigen außerdem, dass ESPNetv2 erheblich energieeffizienter ist als bestehende Methoden des Standes der Technik, darunter ShuffleNets und MobileNets. Unser Code ist Open Source und steht unter folgender Adresse zur Verfügung: https://github.com/sacmehta/ESPNetv2