HyperAIHyperAI
vor 17 Tagen

CMT-DeepLab: Clustering Mask Transformers für die Panoptic Segmentation

Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
CMT-DeepLab: Clustering Mask Transformers für die Panoptic Segmentation
Abstract

Wir stellen Clustering Mask Transformer (CMT-DeepLab) vor, einen auf Transformers basierenden Rahmen für die Panoptic Segmentation, der um Clusterbildung herum konzipiert ist. CMT-DeepLab überdenkt bestehende Transformer-Architekturen, die in Segmentation- und Detektionsaufgaben eingesetzt werden. Dabei werden die Objekt-Abfragen als Clusterzentren interpretiert, die bei der Segmentation die Aufgabe der Pixelgruppierung übernehmen. Die Clusterbildung erfolgt mittels eines alternierenden Verfahrens: Zunächst werden die Pixel basierend auf ihrer Merkmalsaffinität den Clustern zugeordnet, danach werden die Clusterzentren und die Pixelmerkmale aktualisiert. Zusammen bilden diese Operationen die Clustering Mask Transformer (CMT)-Schicht, die eine dichtere und konsistentere Kreuz-Attention erzeugt, die besser auf die endgültige Segmentationsaufgabe abgestimmt ist. CMT-DeepLab erreicht eine signifikante Verbesserung gegenüber vorhergehenden Ansätzen um 4,4 % PQ und erzielt damit eine neue State-of-the-Art-Leistung von 55,7 % PQ auf dem COCO test-dev-Set.