ESPNet: Effizientes räumliches Pyramidenschema mit dilatierten Faltungen für die semantische Segmentierung

Wir stellen ein schnelles und effizientes Faltungsneuronales Netzwerk, ESPNet, vor, das unter Ressourcenbeschränkungen semantische Segmentierung von Hochauflösungsbildern durchführt. ESPNet basiert auf einem neuen Faltungsmodul, der Efficient Spatial Pyramid (ESP), das in Bezug auf Berechnung, Speicher und Energieeffizient ist. ESPNet ist 22-mal schneller (auf einer Standard-GPU) und 180-mal kleiner als das bislang fortschrittlichste semantische Segmentierungsnetzwerk PSPNet, wobei seine kategoriebasierte Genauigkeit nur um 8 % geringer ist. Wir haben ESPNet anhand verschiedener semantischer Segmentierungdatensätze evaluiert, darunter Cityscapes, PASCAL VOC und ein Datensatz von ganzen Sektionen von Brustbiopsien. Unter den gleichen Beschränkungen hinsichtlich Speicher und Berechnung übertrifft ESPNet alle aktuellen effizienten CNN-Netzwerke wie MobileNet, ShuffleNet und ENet sowohl in den Standardmetriken als auch in unseren neu eingeführten Leistungsindikatoren, die die Effizienz auf Edge-Geräten messen. Unser Netzwerk kann Hochauflösungsbilder mit einer Geschwindigkeit von 112 Bildern pro Sekunde auf einer Standard-GPU und 9 Bildern pro Sekunde auf einem Edge-Gerät verarbeiten.