Réseau Mémoire Régional Efficace pour la Segmentation d'Objets Vidéo

Récemment, plusieurs réseaux basés sur la mémoire espace-temps ont démontré que les indices d'objets (par exemple, des images vidéo ainsi que des masques d'objets segmentés) provenant des frames précédentes sont utiles pour segmenter les objets dans la frame actuelle. Cependant, ces méthodes exploitent l'information de la mémoire par un appariement global à global entre la frame actuelle et les frames passées, ce qui entraîne des appariements incorrects avec des objets similaires et une complexité computationnelle élevée. Pour résoudre ces problèmes, nous proposons une nouvelle solution d'appariement local à local pour le VOS semi-supervisé, nommée Réseau Mémoire Régional (RMNet). Dans RMNet, une mémoire régionale précise est construite en mémorisant les régions locales où les objets cibles apparaissent dans les frames précédentes. Pour la frame de requête actuelle, les régions de requête sont suivies et prédites sur la base du flot optique estimé à partir de la frame précédente. L'appariement local à local proposé atténue efficacement l'ambiguïté des objets similaires dans les frames de mémoire et de requête, permettant ainsi un transfert d'informations rapide et précis de la mémoire régionale vers la région de requête. Les résultats expérimentaux indiquent que le RMNet proposé performe favorablement par rapport aux méthodes de pointe sur les ensembles de données DAVIS et YouTube-VOS.