Panoptic-DeepLab: Ein einfacher, starker und schneller Baseline für bottom-up Panoptic Segmentation

In dieser Arbeit stellen wir Panoptic-DeepLab vor, ein einfaches, leistungsstarkes und schnelles System für die Panoptic-Segmentation, das als solide Baseline für bottom-up-Methoden dienen soll, die Leistungsfähigkeit zweistufiger Methoden erreichen, gleichzeitig aber eine hohe Inferenzgeschwindigkeit bieten. Insbesondere nutzt Panoptic-DeepLab spezifische Architekturen: Dual-ASPP und Dual-Decoder, jeweils angepasst an die semantische und die Instanzsegmentierung. Der semantische Segmentierungs-Branch entspricht dem typischen Entwurf beliebiger semantischer Segmentierungsmodelle (z. B. DeepLab), während der Instanzsegmentierungs-Branch klassenunabhängig ist und lediglich eine einfache Regression der Instanzzentren verwendet. Als Ergebnis erreicht unser einziges Panoptic-DeepLab gleichzeitig die Bestplatzierungen in allen drei Cityscapes-Benchmarks und setzt mit 84,2 % mIoU, 39,0 % AP und 65,5 % PQ auf dem Testset eine neue State-of-the-Art-Leistung. Zudem läuft Panoptic-DeepLab mit MobileNetV3 nahezu in Echtzeit bei einer einzigen Bildgröße von 1025×2049 (15,8 Frames pro Sekunde), während es auf Cityscapes eine konkurrenzfähige Leistung erzielt (54,1 % PQ auf dem Testset). Auf dem Mapillary Vistas-Testset erreicht unsere Ensembles aus sechs Modellen 42,7 % PQ und übertrifft damit den Sieger des Challenges 2018 deutlich um 1,5 %. Schließlich erzielt unser Panoptic-DeepLab auch auf dem anspruchsvollen COCO-Datensatz eine Leistung, die mit mehreren top-down-Methoden konkurrieren kann. Zum ersten Mal zeigen wir, dass eine bottom-up-Methodik state-of-the-art-Ergebnisse in der Panoptic-Segmentation liefern kann.