HyperAIHyperAI
vor 17 Tagen

Dual Super-Resolution Learning für die semantische Segmentierung

{ Yi Shan, Lu Tian, Yousong Zhu, Dong Li, Li Wang}
Dual Super-Resolution Learning für die semantische Segmentierung
Abstract

Aktuelle State-of-the-Art-Methoden für semantische Segmentierung setzen häufig hochauflösende Eingabedaten ein, um hohe Leistung zu erzielen, was jedoch erhebliche Rechenressourcen erfordert und deren Anwendung auf ressourcenbeschränkte Geräte einschränkt. In diesem Paper stellen wir einen einfachen und flexiblen Zweistrom-Framework namens Dual Super-Resolution Learning (DSRL) vor, der die Segmentierungsgenauigkeit effektiv verbessert, ohne zusätzlichen Rechenaufwand mit sich zu bringen. Konkret besteht die vorgeschlagene Methode aus drei Komponenten: Semantic Segmentation Super-Resolution (SSSR), Single Image Super-Resolution (SISR) und einem Feature Affinity (FA)-Modul. Diese Komponenten ermöglichen es, hochauflösende Repräsentationen mit niedrigauflösenden Eingaben zu bewahren, während gleichzeitig die Berechnungskomplexität des Modells reduziert wird. Zudem lässt sich das Verfahren leicht auf andere Aufgaben übertragen, beispielsweise die menschliche Pose-Schätzung. Diese einfache, jedoch leistungsfähige Methode führt zu starken Repräsentationen und wird durch überzeugende Ergebnisse sowohl bei der semantischen Segmentierung als auch bei der menschlichen Pose-Schätzung belegt. Insbesondere erreichen wir auf CityScapes bei der semantischen Segmentierung eine mIoU, die um mindestens 2 % höher ist, bei vergleichbaren FLOPs, und behalten die Leistung bei nur 70 % der FLOPs. Für die menschliche Pose-Schätzung können wir eine mAP um mindestens 2 % steigern, bei gleichbleibenden FLOPs, und die mAP bei 30 % weniger FLOPs beibehalten. Der Quellcode und die Modelle sind unter https://github.com/wanglixilinx/DSRL verfügbar.