HyperAIHyperAI
il y a 4 mois

DMM-Net : Réseau de correspondance de masques différentiable pour la segmentation d'objets vidéo

Xiaohui Zeng; Renjie Liao; Li Gu; Yuwen Xiong; Sanja Fidler; Raquel Urtasun
DMM-Net : Réseau de correspondance de masques différentiable pour la segmentation d'objets vidéo
Résumé

Dans cet article, nous proposons le réseau de correspondance masquée différentiable (DMM-Net) pour résoudre le problème de segmentation d'objets vidéo où les masques initiaux des objets sont fournis. En nous appuyant sur la structure de Mask R-CNN, nous extrayons des propositions de masques par image et formulons la correspondance entre les modèles d'objets et les propositions à un instant donné comme un problème d'affectation linéaire, où la matrice de coût est prédite par un CNN. Nous proposons une couche de correspondance différentiable en déroulant un algorithme de descente de gradient projetée dans lequel la projection utilise l'algorithme de Dykstra. Nous démontrons que sous des conditions légères, la correspondance est garantie pour converger vers l'optimum. En pratique, elle se comporte de manière similaire à l'algorithme hongrois lors de l'inférence. Parallèlement, nous pouvons effectuer une rétropropagation à travers cette couche pour apprendre la matrice de coût. Après la correspondance, une tête de raffinement est utilisée pour améliorer la qualité du masque correspondant. Notre DMM-Net obtient des résultats compétitifs sur le plus grand ensemble de données de segmentation d'objets vidéo YouTube-VOS. Sur DAVIS 2017, DMM-Net atteint les meilleures performances sans apprentissage en ligne sur les premières images. Sans aucune fine-tuning, DMM-Net offre des performances comparables aux méthodes les plus avancées sur l'ensemble de données SegTrack v2. Enfin, notre couche de correspondance est très simple à implémenter ; nous joignons le code PyTorch (moins de 50 lignes) dans le matériel supplémentaire. Notre code est disponible à l'adresse https://github.com/ZENGXH/DMM_Net.