EpO-Net : Exploiter les contraintes géométriques sur les trajectoires denses pour la salience du mouvement

Les approches existantes pour la segmentation du mouvement saillant sont incapables d’apprendre explicitement des indices géométriques et donnent souvent des détections erronées sur des objets statiques marquants. Nous exploitons des contraintes géométriques multi-vues afin de surmonter ces limites. Pour traiter les arrière-plans non rigides, tels que la mer, nous proposons également un mécanisme robuste de fusion entre les caractéristiques basées sur le mouvement et celles basées sur l’apparence. Nous observons que les trajectoires denses, couvrant chaque pixel de la vidéo, permettent de définir des distances épipolaires fondées sur les trajectoires, afin de distinguer efficacement les régions arrière-plan des régions avant-plan. Ces distances épipolaires basées sur les trajectoires sont indépendantes des données et peuvent être calculées facilement à partir de quelques correspondances entre des points d’intérêt dans les images. Nous démontrons qu’en combinant ces distances épipolaires avec le flux optique, il est possible d’apprendre un réseau de mouvement puissant. En permettant au réseau d’exploiter simultanément ces deux types de caractéristiques, nous proposons un mécanisme simple, que nous appelons input-dropout. En comparaison avec les réseaux ne prenant en compte que le mouvement, nous surpassons l’état de l’art précédent sur le jeu de données DAVIS-2016 de 5,2 % en score moyen d’IoU. En fusionnant de manière robuste notre réseau de mouvement avec un réseau d’apparence à l’aide du mécanisme input-dropout, nous surpassons également les méthodes antérieures sur les jeux de données DAVIS-2016, DAVIS-2017 et SegTrackv2.