ENet: Eine Tiefen Neurale Netzarchitektur für Echtzeit-Semantische Segmentierung

Die Fähigkeit, in Echtzeit pixelweise semantische Segmentierung durchzuführen, ist von entscheidender Bedeutung für mobile Anwendungen. Neuere tiefere neuronale Netze, die für diese Aufgabe entwickelt wurden, haben den Nachteil, dass sie eine große Anzahl an Gleitkommaoperationen erfordern und lange Laufzeiten aufweisen, die ihre Verwendbarkeit einschränken. In dieser Arbeit schlagen wir eine neuartige Architektur eines tiefen neuronalen Netzes vor, das ENet (Efficient Neural Network) genannt wird und speziell für Aufgaben mit niedriger Latenzzeit entwickelt wurde. ENet ist bis zu 18-mal schneller, benötigt 75-mal weniger FLOPs (floating point operations), verfügt über 79-mal weniger Parameter und bietet vergleichbare oder bessere Genauigkeit als bestehende Modelle. Wir haben es auf den Datensätzen CamVid, Cityscapes und SUN getestet und Vergleiche mit aktuellen Stand der Technik-Methoden sowie die Kompromisse zwischen Genauigkeit und Verarbeitungszeit eines Netzes dargestellt. Wir präsentieren Leistungs messungen der vorgeschlagenen Architektur auf eingebetteten Systemen und schlagen mögliche Softwareverbesserungen vor, die ENet noch schneller machen könnten.