HyperAIHyperAI
vor 11 Tagen

PP-LiteSeg: Ein überlegenes Echtzeit-Modell für semantische Segmentierung

Juncai Peng, Yi Liu, Shiyu Tang, Yuying Hao, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen, Zhiliang Yu, Yuning Du, Qingqing Dang, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
PP-LiteSeg: Ein überlegenes Echtzeit-Modell für semantische Segmentierung
Abstract

Reale Anwendungen stellen hohe Anforderungen an Methoden der semantischen Segmentierung. Obwohl die semantische Segmentierung durch tiefes Lernen erhebliche Fortschritte erzielt hat, ist die Leistung von Echtzeitmethoden weiterhin unzureichend. In dieser Arbeit präsentieren wir PP-LiteSeg, ein neuartiges, leichtgewichtiges Modell für die Aufgabe der Echtzeit-Segmentierung. Insbesondere stellen wir einen flexiblen und leichtgewichtigen Decoder (Flexible and Lightweight Decoder, FLD) vor, um den Rechenaufwand des herkömmlichen Decoders zu reduzieren. Zur Stärkung der Merkmalsdarstellung schlagen wir ein Unified Attention Fusion Module (UAFM) vor, das sowohl räumliche als auch kanalbasierte Aufmerksamkeit nutzt, um ein Gewicht zu generieren, das dann zur Fusions der Eingabemerkmale verwendet wird. Zudem wird ein einfaches Pyramiden-Pooling-Modul (Simple Pyramid Pooling Module, SPPM) vorgestellt, das kontextuelle Informationen aus dem gesamten Bild mit geringem Rechenaufwand aggregiert. Umfassende Evaluationen zeigen, dass PP-LiteSeg im Vergleich zu anderen Methoden ein überzeugendes Verhältnis zwischen Genauigkeit und Geschwindigkeit erreicht. Auf dem Cityscapes-Testset erzielt PP-LiteSeg 72,0 % mIoU bei 273,6 FPS und 77,5 % mIoU bei 102,6 FPS auf einer NVIDIA GTX 1080Ti. Der Quellcode und die Modelle sind unter PaddleSeg verfügbar: https://github.com/PaddlePaddle/PaddleSeg.

PP-LiteSeg: Ein überlegenes Echtzeit-Modell für semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI