HyperAIHyperAI
il y a 3 mois

Solution gagnante de la première place au YouTubeVOS Challenge 2021 : Segmentations d'instances vidéo

Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka
Solution gagnante de la première place au YouTubeVOS Challenge 2021 : Segmentations d'instances vidéo
Résumé

La segmentation d'instances vidéo (VIS) est un problème multi-tâches qui réalise simultanément la détection, la segmentation et le suivi d'objets. En s'appuyant sur les applications basées sur des ensembles d'images, les données vidéo introduisent une information temporelle supplémentaire, qui, si elle est correctement exploitée, s'avère très utile pour identifier et prédire les mouvements des objets. Dans ce travail, nous proposons un modèle unifié permettant d'apprendre mutuellement ces différentes tâches. Plus précisément, nous introduisons deux modules, nommés Segmentation d'Instances Corrélées Temporellement (TCIS) et Suivi Bidirectionnel (BiTrack), afin de tirer parti de la corrélation temporelle existant entre les masques d'instances d'un même objet sur des trames adjacentes. D'autre part, les données vidéo sont souvent redondantes en raison de la surimposition entre trames. Notre analyse montre que ce problème est particulièrement prononcé sur le jeu de données YoutubeVOS-VIS2021. Par conséquent, nous proposons un mécanisme d'apprentissage à sources multiples (MSD) afin de compenser cette carence en données. En combinant ces techniques avec une série de stratégies efficaces (« bag of tricks »), la performance du réseau est considérablement améliorée par rapport à la base de référence, dépassant nettement les autres méthodes sur les jeux de données YoutubeVOS-VIS 2019 et 2021.