Command Palette
Search for a command to run...
Mask2Former für die Video-Instanzsegmentierung
Mask2Former für die Video-Instanzsegmentierung
Bowen Cheng Anwesa Choudhuri Ishan Misra Alexander Kirillov Rohit Girdhar Alexander G. Schwing
Zusammenfassung
Wir stellen fest, dass Mask2Former auch ohne Änderung der Architektur, der Verlustfunktion oder gar des Trainingspipelines eine state-of-the-art-Leistung bei der Video-Instanzsegmentierung erzielt. In diesem Bericht zeigen wir, dass universelle Bildsegmentierungsarchitekturen nahezu trivial auf die Video-Segmentierung verallgemeinert werden können, indem direkt 3D-Segmentierungsvolumina vorhergesagt werden. Konkret erreicht Mask2Former eine neue state-of-the-art-Leistung von 60,4 AP auf YouTubeVIS-2019 und 52,6 AP auf YouTubeVIS-2021. Wir sind überzeugt, dass Mask2Former ebenfalls in der Lage ist, Video-Semantik- und Panoptic-Segmentierung zu bewältigen, gegeben seine Vielseitigkeit bei der Bildsegmentierung. Wir hoffen, dass dies die Forschung auf dem Gebiet der state-of-the-art-Video-Segmentierung zugänglicher macht und mehr Aufmerksamkeit auf die Entwicklung universeller Bild- und Video-Segmentierungsarchitekturen lenkt.