Segmentation d'objets vidéo régionale avec modélisation profonde du mouvement

Les méthodes actuelles de segmentation d'objets vidéo semi-supervisée (VOS) utilisent généralement l'ensemble des caractéristiques d'un cadre pour prédire les masques d'objets et mettre à jour la mémoire. Cela introduit des calculs redondants importants. Pour réduire cette redondance, nous présentons une approche de segmentation d'objets vidéo par région (RAVOS) qui prédit les régions d'intérêt (ROIs) pour une segmentation d'objets efficace et un stockage de mémoire optimisé. RAVOS inclut un suiveur rapide du mouvement des objets pour prédire leurs ROIs dans le cadre suivant. Pour une segmentation efficace, les caractéristiques des objets sont extraites en fonction des ROIs, et un décodeur d'objets est conçu pour la segmentation au niveau objet. Pour un stockage de mémoire efficace, nous proposons une mémoire de trajectoire de mouvement qui filtre les contextes redondants en mémorisant les caractéristiques dans la trajectoire de mouvement des objets entre deux cadres. En plus de RAVOS, nous proposons également un jeu de données à grande échelle, appelé OVOS, pour évaluer les performances des modèles VOS en présence d'occlusions. Les évaluations sur les benchmarks DAVIS et YouTube-VOS, ainsi que sur notre nouveau jeu de données OVOS, montrent que notre méthode atteint des performances de pointe avec un temps d'inférence considérablement plus rapide, par exemple 86,1 J&F à 42 FPS sur DAVIS et 84,4 J&F à 23 FPS sur YouTube-VOS.