HyperAIHyperAI
il y a 2 mois

YouTube-VOS : Segmentation d'objets vidéo de séquence à séquence

Xu, Ning ; Yang, Linjie ; Fan, Yuchen ; Yang, Jianchao ; Yue, Dingcheng ; Liang, Yuchen ; Price, Brian ; Cohen, Scott ; Huang, Thomas
YouTube-VOS : Segmentation d'objets vidéo de séquence à séquence
Résumé

L'apprentissage de caractéristiques spatiales et temporelles à long terme est crucial pour de nombreuses tâches d'analyse vidéo. Cependant, les méthodes actuelles de segmentation vidéo reposent principalement sur des techniques de segmentation d'images statiques, et les approches visant à capturer la dépendance temporelle pour la segmentation doivent s'appuyer sur des modèles d'écoulement optique pré-entraînés, ce qui conduit à des solutions sous-optimales pour le problème. L'apprentissage séquentiel de bout en bout pour explorer les caractéristiques spatiales et temporelles dans la segmentation vidéo est largement limité par l'échelle des jeux de données disponibles en segmentation vidéo, c'est-à-dire que même le plus grand jeu de données de segmentation vidéo ne contient que 90 courts extraits vidéo. Pour résoudre ce problème, nous avons créé un nouveau jeu de données à grande échelle pour la segmentation d'objets dans les vidéos appelé YouTube Video Object Segmentation dataset (YouTube-VOS). Notre jeu de données comprend 3 252 extraits vidéo YouTube et 78 catégories, incluant des objets courants et des activités humaines. À notre connaissance, il s'agit du plus grand jeu de données de segmentation d'objets dans les vidéos jusqu'à présent, et nous l'avons rendu disponible à l'adresse https://youtube-vos.org. Sur la base de ce jeu de données, nous proposons un réseau neuronal novateur sequence-to-sequence permettant d'exploiter pleinement les informations spatiales et temporelles à long terme dans les vidéos pour la segmentation. Nous montrons que notre méthode obtient les meilleurs résultats sur notre ensemble de test YouTube-VOS et des résultats comparables sur DAVIS 2016 par rapport aux méthodes actuellement considérées comme étant à l'état de l'art. Les expériences démontrent que l'échelle importante du jeu de données est effectivement un facteur clé du succès de notre modèle.

YouTube-VOS : Segmentation d'objets vidéo de séquence à séquence | Articles de recherche récents | HyperAI