HyperAIHyperAI
il y a 2 mois

RVOS : Réseau récurrent de bout en bout pour la segmentation d'objets vidéo

Carles Ventura; Miriam Bellver; Andreu Girbau; Amaia Salvador; Ferran Marques; Xavier Giro-i-Nieto
RVOS : Réseau récurrent de bout en bout pour la segmentation d'objets vidéo
Résumé

La segmentation d'objets multiples dans les vidéos est une tâche complexe, en particulier dans le cas zéro-shot, où aucun masque d'objet n'est fourni au premier cadre et le modèle doit identifier les objets à segmenter tout au long de la séquence. Dans notre travail, nous proposons un réseau récurrent pour la segmentation d'objets multiples dans les vidéos (RVOS) qui est entièrement entraînable de bout en bout. Notre modèle intègre la récurrence dans deux domaines différents : (i) l'espace, ce qui permet de découvrir différentes instances d'objets au sein d'un cadre, et (ii) le temps, ce qui permet de maintenir la cohérence des objets segmentés au fil du temps. Nous entraînons RVOS pour la segmentation d'objets vidéo zéro-shot et sommes les premiers à rapporter des résultats quantitatifs pour les benchmarks DAVIS-2017 et YouTube-VOS. De plus, nous adaptons RVOS pour la segmentation d'objets vidéo one-shot en utilisant les masques obtenus aux étapes temporelles précédentes comme entrées à traiter par le module récurrent. Notre modèle obtient des résultats comparables aux techniques de pointe sur le benchmark YouTube-VOS et surpassent toutes les méthodes précédentes de segmentation d'objets vidéo ne faisant pas usage d'apprentissage en ligne sur le benchmark DAVIS-2017. En outre, notre modèle atteint des temps d'exécution de l'inférence plus rapides que les méthodes précédentes, avec 44 ms/cadre sur une GPU P100.

RVOS : Réseau récurrent de bout en bout pour la segmentation d'objets vidéo | Articles de recherche récents | HyperAI