HyperAIHyperAI
vor 17 Tagen

Mask2Former für die Video-Instanzsegmentierung

Bowen Cheng, Anwesa Choudhuri, Ishan Misra, Alexander Kirillov, Rohit Girdhar, Alexander G. Schwing
Mask2Former für die Video-Instanzsegmentierung
Abstract

Wir stellen fest, dass Mask2Former auch ohne Änderung der Architektur, der Verlustfunktion oder gar des Trainingspipelines eine state-of-the-art-Leistung bei der Video-Instanzsegmentierung erzielt. In diesem Bericht zeigen wir, dass universelle Bildsegmentierungsarchitekturen nahezu trivial auf die Video-Segmentierung verallgemeinert werden können, indem direkt 3D-Segmentierungsvolumina vorhergesagt werden. Konkret erreicht Mask2Former eine neue state-of-the-art-Leistung von 60,4 AP auf YouTubeVIS-2019 und 52,6 AP auf YouTubeVIS-2021. Wir sind überzeugt, dass Mask2Former ebenfalls in der Lage ist, Video-Semantik- und Panoptic-Segmentierung zu bewältigen, gegeben seine Vielseitigkeit bei der Bildsegmentierung. Wir hoffen, dass dies die Forschung auf dem Gebiet der state-of-the-art-Video-Segmentierung zugänglicher macht und mehr Aufmerksamkeit auf die Entwicklung universeller Bild- und Video-Segmentierungsarchitekturen lenkt.

Mask2Former für die Video-Instanzsegmentierung | Neueste Forschungsarbeiten | HyperAI