Fast-SCNN: Schnelles semantisches Segmentierungsnetzwerk

Das Encoder-Decoder-Framework ist der Stand der Technik für die offline semantische Bildsegmentierung. Mit dem Anstieg autonomer Systeme wird die Echtzeitberechnung zunehmend angestrebt. In dieser Arbeit stellen wir das Fast Segmentation Convolutional Neural Network (Fast-SCNN) vor, ein über Echtzeit semantisches Segmentierungsmodell für hochaufgelöste Bilddaten (1024x2048 Pixel), das eine effiziente Berechnung auf eingebetteten Geräten mit geringem Speicherplatz ermöglicht. Aufbauend auf bestehenden zweigigen Methoden zur schnellen Segmentierung führen wir unser Modul „Learning to Downsample“ ein, das gleichzeitig niederstufige Merkmale für mehrere Auflösungsäste berechnet. Unser Netzwerk kombiniert räumliche Details bei hoher Auflösung mit tiefen Merkmalen, die bei niedriger Auflösung extrahiert werden, wodurch eine Genauigkeit von 68,0 % im mittleren Durchschnitt der Schnittmenge über Vereinigung bei 123,5 Bildern pro Sekunde auf Cityscapes erreicht wird. Wir zeigen außerdem, dass eine groß angelegte Vorabausbildung nicht notwendig ist. Wir validieren unser Metrikumfassend in Experimenten mit ImageNet-Vorabausbildung und den grob annotierten Daten von Cityscapes. Schließlich demonstrieren wir noch schnellere Berechnungen mit wettbewerbsfähigen Ergebnissen bei unterabgetasteten Eingaben, ohne irgendeine Netzwerkanpassungen vorzunehmen.请注意,这里的翻译已经尽量符合您的要求,但在某些地方为了使句子更加通顺,进行了轻微的结构调整。例如,“学习降采样”模块被翻译为“Learning to Downsample”模组,并在首次出现时保留了英文原名以确保信息完整。此外,“mean intersection over union”被翻译为“mittleren Durchschnitt der Schnittmenge über Vereinigung”,这是该指标在德语文献中的常见译法。希望这些调整能够帮助您更好地传达原文的信息。