HyperAIHyperAI
vor 17 Tagen

K-Net: Hin zu einer einheitlichen Bildsegmentierung

Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
K-Net: Hin zu einer einheitlichen Bildsegmentierung
Abstract

Semantische, instanz- und panoptische Segmentierung wurden bisher trotz ihrer grundlegenden Verwandtschaft mit unterschiedlichen, spezialisierten Frameworks angegangen. In diesem Artikel präsentieren wir ein einheitliches, einfaches und effektives Framework für diese grundsätzlich ähnlichen Aufgaben. Das Framework, benannt K-Net, segmentiert sowohl Instanzen als auch semantische Kategorien konsistent mittels einer Gruppe lernbarer Kerne, wobei jeder Kern entweder eine Maske für eine potenzielle Instanz oder eine Stuff-Klasse generiert. Um die Schwierigkeiten bei der Unterscheidung verschiedener Instanzen zu überwinden, schlagen wir eine Kernel-Update-Strategie vor, die es jedem Kern ermöglicht, dynamisch und bedingt durch seine bedeutungsvolle Gruppe im Eingabebild zu sein. K-Net kann end-to-end mit bipartiter Zuordnung trainiert werden, wobei sowohl das Training als auch die Inferenz natürlicherweise NMS-frei und box-frei sind. Ohne zusätzliche Tricks erreicht K-Net auf dem MS COCO test-dev Split die bisher besten veröffentlichten Ergebnisse für Einzelmodell-panoptische Segmentierung mit 55,2% PQ und auf dem ADE20K val Split für semantische Segmentierung mit 54,3% mIoU. Auch die Leistung bei der Instanzsegmentierung liegt mit 60–90 % schnellerer Inferenzgeschwindigkeit auf dem Niveau von Cascade Mask R-CNN auf MS COCO. Der Quellcode und die Modelle werden unter https://github.com/ZwwWayne/K-Net/ veröffentlicht.