Mask2Former für die Video-Instanzsegmentierung

Wir stellen fest, dass Mask2Former auch ohne Änderung der Architektur, der Verlustfunktion oder gar des Trainingspipelines eine state-of-the-art-Leistung bei der Video-Instanzsegmentierung erzielt. In diesem Bericht zeigen wir, dass universelle Bildsegmentierungsarchitekturen nahezu trivial auf die Video-Segmentierung verallgemeinert werden können, indem direkt 3D-Segmentierungsvolumina vorhergesagt werden. Konkret erreicht Mask2Former eine neue state-of-the-art-Leistung von 60,4 AP auf YouTubeVIS-2019 und 52,6 AP auf YouTubeVIS-2021. Wir sind überzeugt, dass Mask2Former ebenfalls in der Lage ist, Video-Semantik- und Panoptic-Segmentierung zu bewältigen, gegeben seine Vielseitigkeit bei der Bildsegmentierung. Wir hoffen, dass dies die Forschung auf dem Gebiet der state-of-the-art-Video-Segmentierung zugänglicher macht und mehr Aufmerksamkeit auf die Entwicklung universeller Bild- und Video-Segmentierungsarchitekturen lenkt.