HyperAIHyperAI
il y a 17 jours

Mask2Former pour la segmentation d'instances vidéo

Bowen Cheng, Anwesa Choudhuri, Ishan Misra, Alexander Kirillov, Rohit Girdhar, Alexander G. Schwing
Mask2Former pour la segmentation d'instances vidéo
Résumé

Nous constatons que Mask2Former atteint également des performances de pointe sur la segmentation d'instances vidéo sans modifier l'architecture, la fonction de perte, ni même le pipeline d'entraînement. Dans ce rapport, nous montrons que les architectures universelles de segmentation d'images se généralisent trivialement à la segmentation vidéo en prédisant directement des volumes de segmentation en 3D. Plus précisément, Mask2Former établit un nouveau record avec un score de 60,4 AP sur YouTubeVIS-2019 et de 52,6 AP sur YouTubeVIS-2021. Nous pensons que Mask2Former est également capable de traiter la segmentation sémantique et panoptique vidéo, compte tenu de sa polyvalence en segmentation d'images. Nous espérons que cela rendra la recherche avancée en segmentation vidéo plus accessible et attirera davantage l'attention sur la conception d'architectures universelles pour la segmentation d'images et de vidéos.