HyperAIHyperAI
il y a 18 jours

MDQE : Extraction d'embeddings de requêtes discriminants pour la segmentation d'instances occultées dans des vidéos exigeantes

Minghan Li, Shuai Li, Wangmeng Xiang, Lei Zhang
MDQE : Extraction d'embeddings de requêtes discriminants pour la segmentation d'instances occultées dans des vidéos exigeantes
Résumé

Bien que des progrès remarquables aient été accomplis, les méthodes de segmentation d’instances vidéo (VIS) basées sur une entrée par clip épisodique échouent fréquemment sur des vidéos complexes comportant des objets occultés ou des scènes surchargées. Cela est principalement dû au fait que les requêtes d’instances dans ces méthodes ne parviennent pas à encoder efficacement les représentations discriminantes des instances, rendant ainsi la segmentation basée sur les requêtes peu performante pour distinguer les instances « difficiles ». Pour résoudre ces problèmes, nous proposons une méthode intitulée Mining Discriminative Query Embeddings (MDQE), conçue pour segmenter les instances occultées dans des vidéos complexes. Premièrement, nous initialisons les embeddings spatiaux et les caractéristiques de contenu des requêtes d’objets en tenant compte de leur information contextuelle spatiale ainsi que du mouvement inter-frame des objets. Deuxièmement, nous introduisons une perte de répulsion de masques entre instances, qui éloigne chaque instance de ses voisines non ciblées. La méthode MDQE, qui est la première approche de VIS à entrée par clip à atteindre des résultats de pointe sur des vidéos complexes tout en offrant des performances compétitives sur des vidéos simples, obtient respectivement 33,0 % et 44,5 % d’AP masque sur les benchmarks OVIS et YouTube-VIS 2021 lorsqu’elle est utilisée avec ResNet50. Le code source de MDQE est disponible à l’adresse suivante : \url{https://github.com/MinghanLi/MDQE_CVPR2023}.

MDQE : Extraction d'embeddings de requêtes discriminants pour la segmentation d'instances occultées dans des vidéos exigeantes | Articles de recherche récents | HyperAI