HyperAIHyperAI
il y a 2 mois

Segmentation collaborative d'objets vidéo par intégration multi-échelle du premier plan et de l'arrière-plan

Zongxin Yang; Yunchao Wei; Yi Yang
Segmentation collaborative d'objets vidéo par intégration multi-échelle du premier plan et de l'arrière-plan
Résumé

Ce travail examine les principes de l'apprentissage d'incrustation pour aborder le défi de la segmentation d'objets vidéo semi-supervisée. Contrairement aux approches précédentes qui se concentrent sur l'exploration de l'apprentissage d'incrustation des objets premiers plans, nous considérons que le fond doit être traité avec une égale importance. Ainsi, nous proposons une approche de segmentation collaborative d'objets vidéo par intégration premier plan-fond (CFBI). CFBI sépare l'incrustation des caractéristiques en région d'objet premier plan et sa région de fond correspondante, favorisant implicitement leur contraste et améliorant ainsi les résultats de segmentation. De plus, CFBI réalise à la fois des processus de correspondance au niveau des pixels et des mécanismes d'attention au niveau des instances entre la séquence de référence et la séquence prédite, ce qui rend CFBI robuste face à diverses échelles d'objets. Sur la base de CFBI, nous introduisons une structure de correspondance multi-échelle et proposons une stratégie de correspondance dilatée (Atrous Matching), aboutissant à un cadre plus robuste et efficace, CFBI+. Nous menons des expériences approfondies sur deux benchmarks populaires, à savoir DAVIS et YouTube-VOS. Sans utiliser aucune donnée simulée pour le pré-entraînement, notre CFBI+ atteint une performance (J&F) de 82,9 % et 82,8 %, surpassant toutes les autres méthodes de pointe. Code : https://github.com/z-x-yang/CFBI.

Segmentation collaborative d'objets vidéo par intégration multi-échelle du premier plan et de l'arrière-plan | Articles de recherche récents | HyperAI