HyperAIHyperAI
il y a 17 jours

Segmentation d'instances vidéo avec un paradigme Propose-Reduce

Huaijia Lin, Ruizheng Wu, Shu Liu, Jiangbo Lu, Jiaya Jia
Segmentation d'instances vidéo avec un paradigme Propose-Reduce
Résumé

La segmentation d'instances vidéo (VIS) vise à segmenter et à associer toutes les instances des classes prédéfinies pour chaque trame d'une vidéo. Les méthodes précédentes obtiennent généralement la segmentation d'une trame ou d'un clip, puis fusionnent les résultats incomplets à l'aide de traçage ou de correspondance. Ces approches peuvent entraîner une accumulation d'erreurs lors de l'étape de fusion. À l'inverse, nous proposons un nouveau paradigme — Propose-Reduce — permettant de générer des séquences complètes pour les vidéos d'entrée en une seule étape. Nous avons également conçu une tête de propagation de séquence sur un réseau existant de segmentation d'instances au niveau image, afin de permettre une propagation à long terme. Pour assurer la robustesse et un haut taux de rappel de notre cadre proposé, plusieurs séquences sont initialement proposées, puis les séquences redondantes appartenant à la même instance sont réduites. Nous obtenons des performances de pointe sur deux jeux de données représentatifs : 47,6 % en termes d'AP sur l'ensemble de validation YouTube-VIS, et 70,4 % pour J&F sur l'ensemble de validation DAVIS-UVOS. Le code est disponible à l'adresse suivante : https://github.com/dvlab-research/ProposeReduce.