HyperAIHyperAI
il y a 17 jours

Apprentissage par croisement pour une segmentation d'instances vidéo en ligne rapide

Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu
Apprentissage par croisement pour une segmentation d'instances vidéo en ligne rapide
Résumé

La modélisation du contexte visuel temporel entre les trames est essentielle pour la segmentation d'instances vidéo (VIS) et d'autres tâches de compréhension vidéo. Dans cet article, nous proposons un modèle rapide en ligne pour la VIS, nommé CrossVIS. Pour la modélisation de l'information temporelle dans la VIS, nous introduisons un nouveau schéma d'apprentissage par croisement qui utilise les caractéristiques d'instance de la trame courante pour localiser de manière pixel-à-pixel la même instance dans d'autres trames. Contrairement aux approches précédentes, cet apprentissage par croisement ne nécessite aucune paramètre supplémentaire du réseau pour l'amélioration des caractéristiques. En s'accompagnant de la perte de segmentation d'instances, cet apprentissage permet une apprentissage efficace des relations entre instances et pixels à travers les trames, offrant ainsi une amélioration gratuite en phase d'inférence. En outre, nous proposons une branche d'embedding d'instance globalement équilibrée afin d'améliorer la précision et la stabilité de l'association d'instances en ligne. Nous menons des expériences étendues sur trois benchmarks exigeants pour la VIS, à savoir YouTube-VIS-2019, OVIS et YouTube-VIS-2021, afin d'évaluer notre méthode. À notre connaissance, CrossVIS atteint des performances de pointe parmi toutes les méthodes en ligne pour la VIS, tout en offrant un bon compromis entre latence et précision. Le code sera rendu disponible afin de faciliter les recherches futures.

Apprentissage par croisement pour une segmentation d'instances vidéo en ligne rapide | Articles de recherche récents | HyperAI