HyperAIHyperAI
il y a 11 jours

Réinterpréter les réseaux espace-temps avec une couverture mémoire améliorée pour une segmentation d'objets vidéo efficace

Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
Réinterpréter les réseaux espace-temps avec une couverture mémoire améliorée pour une segmentation d'objets vidéo efficace
Résumé

Cet article présente une approche simple mais efficace pour modéliser les correspondances espace-temps dans le cadre de la segmentation d'objets vidéo. Contrairement à la plupart des méthodes existantes, nous établissons directement les correspondances entre cadres sans réencoder les caractéristiques du masque pour chaque objet, ce qui conduit à un cadre hautement efficace et robuste. Grâce à ces correspondances, chaque nœud dans le cadre de requête actuel est estimé en agrégant de manière associative les caractéristiques provenant du passé. Nous formulons ce processus d’agrégation comme un problème de vote, et constatons que l’affinité basée sur le produit scalaire existante entraîne une utilisation médiocre de la mémoire, avec un petit sous-ensemble fixe de nœuds mémoire qui domine systématiquement les votes, indépendamment de la requête. À la lumière de ce phénomène, nous proposons d’utiliser à la place la distance euclidienne au carré négative pour calculer les affinités. Nous avons validé que chaque nœud mémoire a désormais une chance de contribuer, et démontré expérimentalement que ce mécanisme de vote diversifié améliore à la fois l’efficacité mémoire et la précision de l’inférence. L’association entre les réseaux de correspondances et le vote diversifié fonctionne exceptionnellement bien, atteignant de nouveaux résultats d’état de l’art sur les jeux de données DAVIS et YouTubeVOS, tout en opérant à plus de 20 FPS pour plusieurs objets, sans nécessiter de techniques supplémentaires.

Réinterpréter les réseaux espace-temps avec une couverture mémoire améliorée pour une segmentation d'objets vidéo efficace | Articles de recherche récents | HyperAI