ICNet für Echtzeit-Semantische Segmentierung auf Hochauflösenden Bildern

In dieser Arbeit konzentrieren wir uns auf die anspruchsvolle Aufgabe der Echtzeit-Semantischen Segmentierung. Diese findet zahlreiche praktische Anwendungen, ist jedoch durch die grundlegende Schwierigkeit gekennzeichnet, einen großen Teil der Berechnung für die Pixelweise Klassifizierung zu reduzieren. Wir schlagen ein Bildkaskaden-Netzwerk (Image Cascade Network, ICNet) vor, das mehrere Auflösungsstufen unter angemessener Label-Guidance integriert, um dieser Herausforderung gerecht zu werden. Wir führen eine detaillierte Analyse unseres Frameworks durch und stellen die Kaskaden-Feature-Fusion-Einheit vor, mit der hochwertige Segmentierung schnell erreicht werden kann. Unser System liefert Echtzeit-Inferenz auf einer einzelnen GPU-Karte und erzielt gute Ergebnisse bei der Auswertung anhand anspruchsvoller Datensätze wie Cityscapes, CamVid und COCO-Stuff.