HyperAIHyperAI
il y a 11 jours

Une approche transductive pour la segmentation d'objets vidéo

Yizhuo Zhang, Zhirong Wu, Houwen Peng, Stephen Lin
Une approche transductive pour la segmentation d'objets vidéo
Résumé

La segmentation d'objets vidéo semi-supervisée vise à isoler un objet cible à partir d'une séquence vidéo, à partir du masque fourni dans la première trame. La plupart des méthodes actuelles dominantes exploitent des informations provenant de modules supplémentaires entraînés dans d'autres domaines, tels que le flux optique ou la segmentation d'instances, ce qui les place en position de désavantage par rapport aux autres approches lorsqu'elles sont comparées sur un pied d'égalité. Pour remédier à ce problème, nous proposons une méthode transductive simple mais puissante, ne nécessitant ni modules supplémentaires, ni jeux de données externes, ni conceptions architecturales spécifiques. Notre approche repose sur une propagation de labels, où les étiquettes des pixels sont propagées en avant selon la similarité des caractéristiques dans un espace d'encodage. Contrairement aux méthodes de propagation existantes, notre méthode diffuse l'information temporelle de manière holistique, en tenant compte de l'apparence à long terme de l'objet. En outre, notre méthode impose un surcoût computationnel minimal et fonctionne à une vitesse élevée d'environ 37 fps. Un modèle unique utilisant un squelette ResNet50 « vanilla » atteint un score global de 72,3 sur l'ensemble de validation DAVIS 2017 et de 63,1 sur l'ensemble de test. Cette méthode simple, performante et efficace peut servir de base solide pour les recherches futures. Le code et les modèles sont disponibles à l'adresse suivante : \url{https://github.com/microsoft/transductive-vos.pytorch}.

Une approche transductive pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI