HyperAIHyperAI
il y a 2 mois

CNN dans MRF : Segmentation d'objets vidéo par inférence dans un MRF spatio-temporel d'ordre supérieur basé sur CNN

Linchao Bao; Baoyuan Wu; Wei Liu
CNN dans MRF : Segmentation d'objets vidéo par inférence dans un MRF spatio-temporel d'ordre supérieur basé sur CNN
Résumé

Ce document aborde le problème de la segmentation d'objets vidéo, où le masque initial de l'objet est fourni dans le premier cadre d'une vidéo d'entrée. Nous proposons un nouveau modèle de champ aléatoire markovien (MRF) spatio-temporel défini sur les pixels pour traiter ce problème. Contrairement aux modèles MRF conventionnels, les dépendances spatiales entre les pixels dans notre modèle sont encodées par un réseau neuronal convolutif (CNN). Plus précisément, pour un objet donné, la probabilité d'un étiquetage à un ensemble de pixels voisins spatialement peut être prédite par un CNN formé spécifiquement pour cet objet. Par conséquent, des dépendances d'ordre supérieur et plus riches entre les pixels de l'ensemble peuvent être implicitement modélisées par le CNN. Grâce aux dépendances temporelles établies par le flux optique, le modèle MRF résultant combine à la fois des indices spatiaux et temporels pour résoudre la segmentation d'objets vidéo. Cependant, effectuer une inférence dans le modèle MRF est très difficile en raison des dépendances d'ordre très élevé. À cette fin, nous proposons un nouvel algorithme intégrant un CNN pour effectuer une inférence approximative dans le MRF. Cet algorithme alterne entre une étape de fusion temporelle et une étape de propagation avant du CNN. Lorsqu'il est initialisé avec un CNN de segmentation mono-coup basé sur l'apparence, notre modèle surpasses les entrées gagnantes du Défi DAVIS 2017 sans recourir à l'agrégation de modèles ou à des détecteurs dédiés.

CNN dans MRF : Segmentation d'objets vidéo par inférence dans un MRF spatio-temporel d'ordre supérieur basé sur CNN | Articles de recherche récents | HyperAI