HyperAIHyperAI
il y a 18 jours

BoxVIS : Segmentations d'instances vidéo avec des annotations par boîtes

Minghan Li, Lei Zhang
BoxVIS : Segmentations d'instances vidéo avec des annotations par boîtes
Résumé

Il est coûteux et très exigeant en main-d’œuvre deannoter les masques d’objets au niveau des pixels dans une vidéo. En conséquence, la quantité d’annotations au niveau des pixels présentes dans les jeux de données existants pour la segmentation d’instances vidéo (VIS) reste faible, ce qui limite la capacité de généralisation des modèles VIS entraînés. Une alternative bien plus économique consiste à utiliser des boîtes englobantes (bounding boxes) pour annoter les instances dans les vidéos. Inspirés par les récents succès obtenus dans la segmentation d’instances d’images supervisée par des boîtes, nous adaptons les modèles VIS les plus performants actuellement disponibles, initialement conçus pour une supervision par pixels, à un cadre de supervision par boîtes, ce qui donne une base de référence appelée BoxVIS. Toutefois, nous observons une légère dégradation des performances. Nous proposons donc d’améliorer les performances de BoxVIS sous deux angles. Premièrement, nous introduisons une perte d’affinité spatiale-temporelle par paires (STPA) guidée par le centre des boîtes, afin de prédire des masques d’instances avec une meilleure cohérence spatiale et temporelle. Deuxièmement, nous construisons un nouveau jeu de données VIS annoté par boîtes à plus grande échelle (BVISD), en regroupant les vidéos provenant des benchmarks actuels de VIS et en transformant des images du jeu de données COCO en courtes séquences pseudo-videos. Grâce au jeu de données BVISD proposé et à la perte STPA, notre modèle BoxVIS entraîné atteint des scores de 43,2 % et 29,0 % en AP de masque sur les ensembles de validation YouTube-VIS 2021 et OVIS, respectivement. Il présente des performances comparables en prédiction de masques d’instances et une meilleure capacité de généralisation par rapport aux modèles VIS les plus avancés actuellement disponibles, tout en nécessitant uniquement 16 % du temps et des coûts d’annotation. Le code et les données sont disponibles à l’adresse suivante : \url{https://github.com/MinghanLi/BoxVIS}.