Voir Plus, Savoir Plus : Segmentation d'Objets Vidéo Non Supervisée avec des Réseaux Siamese à Co-Attention

Nous présentons un nouveau réseau, appelé Réseau Siamese à Co-Attention (COSNet), pour aborder la tâche de segmentation d'objets vidéo non supervisée sous une perspective globale. Nous soulignons l'importance de la corrélation inhérente entre les images d'une vidéo et intégrons un mécanisme de co-attention global afin d'améliorer davantage les solutions basées sur l'apprentissage profond qui se concentrent principalement sur l'apprentissage de représentations discriminantes du premier plan en fonction de l'apparence et du mouvement dans des segments temporels à court terme. Les couches de co-attention dans notre réseau fournissent des étapes efficaces et compétentes pour capturer les corrélations globales et le contexte scénique en calculant conjointement et en ajoutant les réponses de co-attention dans un espace de caractéristiques commun. Nous formons COSNet avec des paires d'images vidéo, ce qui augmente naturellement la quantité de données d'entraînement et permet une capacité d'apprentissage accrue. Pendant la phase de segmentation, le modèle de co-attention encode des informations utiles en traitant plusieurs images de référence ensemble, ce qui améliore la détection des objets du premier plan fréquemment réapparaissants et saillants. Nous proposons un cadre unifié et entièrement entraînable par gradient où différentes variantes de co-attention peuvent être dérivées pour exploiter le contexte riche contenu dans les vidéos. Nos expériences approfondies sur trois grands jeux de données montrent que COSNet surpassent largement les alternatives actuelles.请注意,这里将“holistic view”翻译为“perspective globale”,以符合法语文献中的常用表达。同时,“unsupervised video object segmentation task”被翻译为“tâche de segmentation d'objets vidéo non supervisée”,这是该领域的通用术语。其他专业术语也采用了相应的法语表达,以确保译文的专业性和准确性。