Traiter le mouvement comme une option pour réduire la dépendance au mouvement dans la segmentation d'objets vidéo non supervisée

La segmentation d'objets vidéo non supervisée (VOS) vise à détecter l'objet le plus saillant dans une séquence vidéo au niveau des pixels. Dans la VOS non supervisée, la plupart des méthodes de pointe s'appuient sur les indices de mouvement obtenus à partir des cartes de flux optique en complément des indices d'apparence pour exploiter la propriété selon laquelle les objets saillants ont généralement des mouvements distinctifs par rapport au fond. Cependant, étant trop dépendantes des indices de mouvement, qui peuvent être peu fiables dans certains cas, ces méthodes ne parviennent pas à fournir des prédictions stables. Pour réduire cette dépendance au mouvement des méthodes VOS existantes à deux flux, nous proposons un nouveau réseau de type « mouvement comme option » qui utilise facultativement les indices de mouvement. De plus, afin d'exploiter pleinement la propriété du réseau proposé selon laquelle le mouvement n'est pas toujours nécessaire, nous introduisons une stratégie d'apprentissage collaboratif. Sur tous les jeux de données de référence publics, notre réseau proposé offre des performances de pointe avec une vitesse d'inférence en temps réel.