HyperAIHyperAI
il y a 2 mois

Réconstruction de masque basée sur un réseau neuronal graphique spatio-temporel pour la segmentation d'objets vidéo

Liu, Daizong ; Xu, Shuangjie ; Liu, Xiao-Yang ; Xu, Zichuan ; Wei, Wei ; Zhou, Pan
Réconstruction de masque basée sur un réseau neuronal graphique spatio-temporel pour la segmentation d'objets vidéo
Résumé

Ce travail aborde la tâche de segmentation d'objets indépendants de la classe dans un cadre semi-supervisé. Bien que les méthodes précédentes basées sur la détection aient obtenu des performances relativement bonnes, ces approches extraient la meilleure proposition par une stratégie gloutonne, ce qui peut entraîner la perte de détails locaux des patches en dehors du candidat choisi. Dans cet article, nous proposons un nouveau réseau neuronal graphique spatio-temporel (STG-Net) pour reconstruire des masques plus précis pour la segmentation d'objets vidéo, en utilisant toutes les propositions pour capturer les contextes locaux. Dans le graphe spatial, nous traitons les propositions d'objets d'un cadre comme des nœuds et représentons leurs corrélations par une stratégie de poids d'arêtes pour l'agrégation du contexte du masque. Pour capturer l'information temporelle des cadres précédents, nous utilisons un réseau de mémoire pour affiner le masque du cadre actuel en récupérant les masques historiques dans un graphe temporel. L'utilisation conjointe des détails locaux des patches et des relations temporelles nous permet de mieux relever les défis tels que l'occlusion et la disparition d'objets. Sans apprentissage en ligne ni réglage fin, notre STG-Net atteint des performances de pointe sur quatre grands jeux de données (DAVIS, YouTube-VOS, SegTrack-v2 et YouTube-Objects), démontrant ainsi l'efficacité de l'approche proposée.

Réconstruction de masque basée sur un réseau neuronal graphique spatio-temporel pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI