Command Palette
Search for a command to run...
Segmentation d'objets vidéo auto-supervisée avec apprentissage par distillation de l'attention déformable
Segmentation d'objets vidéo auto-supervisée avec apprentissage par distillation de l'attention déformable
Quang-Trung Truong Duc Thanh Nguyen Binh-Son Hua Sai-Kit Yeung
Résumé
La segmentation d'objets dans les vidéos est un problème de recherche fondamental en vision par ordinateur. Les techniques récentes ont souvent appliqué des mécanismes d'attention à l'apprentissage de représentations d'objets à partir de séquences vidéo. Cependant, en raison des changements temporels dans les données vidéo, les cartes d'attention peuvent ne pas bien s'aligner avec les objets d'intérêt au fil des images, ce qui entraîne une accumulation d'erreurs lors du traitement à long terme des vidéos. De plus, les techniques existantes ont utilisé des architectures complexes, nécessitant une forte complexité computationnelle et limitant ainsi la capacité d'intégrer la segmentation d'objets dans les vidéos sur des appareils à faible puissance. Pour résoudre ces problèmes, nous proposons une nouvelle méthode de segmentation d'objets dans les vidéos basée sur l'apprentissage distillé de l'attention déformable (deformable attention). Plus précisément, nous concevons une architecture légère pour la segmentation d'objets dans les vidéos qui s'adapte efficacement aux changements temporels. Ceci est rendu possible grâce au mécanisme d'attention déformable, où les clés et valeurs capturant la mémoire d'une séquence vidéo dans le module d'attention ont des positions flexibles mises à jour entre les images. Les représentations d'objets apprises sont donc adaptatives tant dans la dimension spatiale que temporelle. Nous formons l'architecture proposée de manière autonome supervisée grâce à un nouveau paradigme de distillation de connaissances où les cartes d'attention déformable sont intégrées dans la perte de distillation. Nous évaluons notre méthode qualitativement et quantitativement et la comparons aux méthodes existantes sur des jeux de données de référence tels que DAVIS 2016/2017 et YouTube-VOS 2018/2019. Les résultats expérimentaux confirment la supériorité de notre méthode par sa performance au niveau de l'état de l'art et son utilisation optimale de la mémoire.