Pyramiden-Szene-Parsing-Netzwerk

Die Szeneanalyse ist eine Herausforderung bei unbegrenztem offenen Vokabular und vielfältigen Szenen. In dieser Arbeit nutzen wir die Fähigkeit der globalen Kontextinformationen durch kontextbasierte Aggregation verschiedener Regionen mittels unseres Pyramid-Pooling-Moduls sowie des vorgeschlagenen Pyramid Scene Parsing Networks (PSPNet). Unsere globale Prior-Darstellung ist effektiv, um hochwertige Ergebnisse bei der Szeneanalyse zu erzielen, während PSPNet ein überlegenes Framework für Pixel-Level-Vorhersageaufgaben bietet. Der vorgeschlagene Ansatz erreicht den aktuellen Stand der Technik auf verschiedenen Datensätzen. Er belegte den ersten Platz beim ImageNet-Szeneanalyse-Challenge 2016, beim PASCAL VOC 2012 Benchmark und beim Cityscapes Benchmark. Ein einzelnes PSPNet erzielt einen neuen Rekord von 85,4 % mIoU-Akkuranz auf dem PASCAL VOC 2012 und eine Akkuranz von 80,2 % auf dem Cityscapes.