Réseaux d'agrégation de mémoire pour une segmentation interactive efficace des objets vidéo

Le segmention d'objets vidéo interactive (iVOS) vise à collecter efficacement des masques de segmentation de haute qualité de l'objet cible dans une vidéo grâce aux interactions utilisateur. La plupart des méthodes précédentes traitent l'iVOS en utilisant deux réseaux indépendants pour effectuer les interactions utilisateur et la propagation temporelle, respectivement, ce qui entraîne des inefficacités lors de l'étape d'inférence. Dans cette étude, nous proposons un cadre unifié nommé Réseaux d'Aggrégation Mémoire (MA-Net) pour aborder le défi de l'iVOS de manière plus efficace. Notre MA-Net intègre les opérations d'interaction et de propagation dans un seul réseau, ce qui améliore considérablement l'efficacité de l'iVOS dans le contexte d'interactions multiples. Plus important encore, nous proposons un mécanisme simple mais efficace d'agrégation de mémoire pour enregistrer les connaissances informatives issues des rounds d'interaction précédents, ce qui augmente grandement la robustesse dans la découverte d'objets d'intérêt difficiles à identifier. Nous menons des expériences approfondies sur l'ensemble de validation du benchmark DAVIS Challenge 2018. En particulier, notre MA-Net obtient un score J@60 de 76,1% sans aucune optimisation supplémentaire, surpassant les méthodes actuelles avec plus de 2,7%.