HyperAIHyperAI
il y a 2 mois

Découverte d'objets auto-supervisée par induction de mouvement dans les vidéos

Shuangrui Ding; Weidi Xie; Yabo Chen; Rui Qian; Xiaopeng Zhang; Hongkai Xiong; Qi Tian
Découverte d'objets auto-supervisée par induction de mouvement dans les vidéos
Résumé

Dans cet article, nous abordons la tâche de découverte non supervisée d'objets dans les vidéos. Les travaux précédents ont montré des résultats prometteurs en traitant les flux optiques pour segmenter les objets. Cependant, l'utilisation du flux comme entrée présente deux inconvénients. Premièrement, le flux ne peut pas capturer suffisamment d'indices lorsque les objets restent statiques ou partiellement occultés. Deuxièmement, il est difficile d'établir une cohérence temporelle à partir d'une entrée uniquement basée sur le flux, en raison de l'absence d'informations texturales.Pour surmonter ces limitations, nous proposons un modèle permettant de traiter directement des images RGB consécutives et d'inférer le flux optique entre n'importe quel couple d'images en utilisant une représentation par couches, où les canaux d'opacité sont considérés comme la segmentation. De plus, pour imposer la permanence des objets, nous appliquons une perte de cohérence temporelle sur les masques inférés à partir de paires d'images aléatoires, qui font référence aux mouvements à différents rythmes, et incitent le modèle à segmenter les objets même s'ils ne bougent pas au moment actuel.Expérimentalement, nous démontrons des performances supérieures aux méthodes précédentes de l'état de l'art sur trois jeux de données publics de segmentation vidéo (DAVIS2016, SegTrackv2 et FBMS-59), tout en étant efficace sur le plan computationnel en évitant le coût supplémentaire du calcul du flux optique comme entrée.

Découverte d'objets auto-supervisée par induction de mouvement dans les vidéos | Articles de recherche récents | HyperAI