REFINE: Prediction Fusion Network für Panoptic Segmentation
Die Panoptic-Segmentierung zielt darauf ab, für jeden Pixel im Eingabebild sowohl eine Klassen- als auch eine Instanzvorhersage zu generieren, was eine anspruchsvolle Aufgabe darstellt und erheblich komplexer ist als eine naive Fusion der Ergebnisse aus semantischer und instanzbasierter Segmentierung. Die Fusion der Vorhersagen ist daher entscheidend für eine präzise Panoptic-Segmentierung. In diesem Paper stellen wir REFINE, ein pREdiction FusIon NEtwork für die Panoptic-Segmentierung, vor, das durch die Verbesserung der Kreuz-Aufgaben-Fusion und der Innerhalb-Aufgaben-Fusion hochwertige Panoptic-Segmentierungen erzielt. Unser einziges Modell mit einem ResNeXt-101-Backbone und DCN erreicht auf dem COCO-Datensatz eine PQ von 51,5 und übertrifft damit die bisherigen State-of-the-Art-Methoden deutlich und ist mit ensembled Modellen vergleichbar. Unser kleineres Modell mit einem ResNet-50-Backbone erreicht eine PQ von 44,9, was mit den besten Methoden, die größere Backbones verwenden, vergleichbar ist.