HyperAIHyperAI
il y a 2 mois

READMem : Association Robuste d'Embeddings pour une Mémoire Diversifiée dans la Segmentation d'Objets Vidéo Non Contrainte

Stéphane Vujasinović; Sebastian Bullinger; Stefan Becker; Norbert Scherer-Negenborn; Michael Arens; Rainer Stiefelhagen
READMem : Association Robuste d'Embeddings pour une Mémoire Diversifiée dans la Segmentation d'Objets Vidéo Non Contrainte
Résumé

Nous présentons READMem (Robust Embedding Association for a Diverse Memory), un cadre modulaire pour les méthodes de segmentation d'objets vidéo semi-automatiques (sVOS) conçues pour traiter des vidéos non contraintes. Les travaux actuels en sVOS agrègent généralement les images vidéo dans une mémoire qui s'étend continuellement, ce qui nécessite de hautes ressources matérielles pour les applications à long terme. Pour atténuer les exigences en mémoire et éviter les doublons d'objets proches (causés par l'information des images adjacentes), les méthodes précédentes introduisent un hyper-paramètre qui contrôle la fréquence des images éligibles à être stockées. Ce paramètre doit être ajusté en fonction des propriétés spécifiques de la vidéo (telles que la rapidité des changements d'apparence et la durée de la vidéo) et ne généralise pas bien. À la place, nous intégrons l'embedding d'une nouvelle image dans la mémoire uniquement si cela augmente la diversité du contenu de la mémoire. De plus, nous proposons une association robuste des embeddings stockés dans la mémoire avec les embeddings de requête lors du processus de mise à jour. Notre approche évite l'accumulation de données redondantes, ce qui nous permet, en retour, de limiter la taille de la mémoire et d'éviter des demandes extrêmes en mémoire pour les vidéos longues. Nous étendons les bases populaires de sVOS avec READMem, qui avait montré des performances limitées sur les vidéos longues. Notre méthode obtient des résultats compétitifs sur le jeu de données Long-time Video (LV1) tout en n'entravant pas les performances sur les séquences courtes. Notre code est disponible au public.

READMem : Association Robuste d'Embeddings pour une Mémoire Diversifiée dans la Segmentation d'Objets Vidéo Non Contrainte | Articles de recherche récents | HyperAI