il y a 2 mois

Segmentation d'instances vidéo sans masque

Lei Ke; Martin Danelljan; Henghui Ding; Yu-Wing Tai; Chi-Keung Tang; Fisher Yu

Résumé

Les récentes avancées en segmentation d'instances vidéo (VIS) ont été largement impulsées par l'utilisation de modèles basés sur des transformers de plus en plus profonds et gourmands en données. Cependant, l'annotation des masques vidéo est fastidieuse et coûteuse, limitant ainsi l'échelle et la diversité des jeux de données VIS existants. Dans ce travail, nous visons à supprimer la nécessité d'annoter les masques. Nous proposons MaskFreeVIS, une méthode qui atteint des performances VIS hautement compétitives tout en n'utilisant que des annotations de boîtes englobantes pour l'état de l'objet. Nous exploitons les contraintes temporelles de cohérence des masques riches présentes dans les vidéos en introduisant la perte Temporal KNN-patch (TK-Loss), fournissant une supervision forte des masques sans aucune étiquette. Notre TK-Loss trouve des correspondances un-à-plusieurs entre les images, grâce à une étape efficace de correspondance de patches suivie d'une sélection des K-plus proches voisins. Une perte de cohérence est ensuite appliquée aux correspondances trouvées. Notre objectif sans masque est simple à mettre en œuvre, ne comporte aucun paramètre entraînable, est économiquement rentable en termes de calcul, mais surpassent néanmoins les méthodes de base utilisant, par exemple, le flux optique d'avant-garde pour imposer la cohérence temporelle des masques. Nous validons MaskFreeVIS sur les benchmarks YouTube-VIS 2019/2021, OVIS et BDD100K MOTS. Les résultats montrent clairement l'efficacité de notre méthode en réduisant considérablement l'écart entre les performances VIS pleinement supervisées et faiblement supervisées. Notre code source et nos modèles entraînés sont disponibles à l'adresse https://github.com/SysCV/MaskFreeVis.