HyperAIHyperAI
il y a 14 jours

Identification par vidéo de personnes avec agrégation concurrentielle de similarité entre extraits et intégration co-attentionnelle d'embeddings d'extrait

{Tong Xiao, Dapeng Chen, Hongsheng Li, Xiaogang Wang, Shuai Yi}
Identification par vidéo de personnes avec agrégation concurrentielle de similarité entre extraits et intégration co-attentionnelle d'embeddings d'extrait
Résumé

Dans cet article, nous abordons la réidentification de personnes à partir de vidéos en proposant une aggregation compétitive des similarités entre segments (snippets) ainsi qu’un embedding co-attentif des segments. Notre approche divise les séquences longues d’individus en plusieurs segments vidéo courts, puis agrège les similarités des segments les plus similaires afin d’estimer la similarité entre séquences. Grâce à cette stratégie, les variations visuelles intra-personne de chaque échantillon sont minimisées pour l’estimation de similarité, tout en préservant la diversité des apparences et les informations temporelles. Les similarités entre segments sont estimées à l’aide d’un réseau neuronal profond doté d’une nouvelle attention temporelle co-attentive pour l’embedding des segments. Les poids d’attention sont déterminés à partir d’un vecteur de requête, appris à partir de l’ensemble du segment de requête grâce à un réseau LSTM, ce qui rend les embeddings résultants moins sensibles aux trames bruitées. Le segment de galerie partage le même vecteur de requête que le segment de requête, permettant ainsi à l’embedding du segment de galerie de mettre en évidence des caractéristiques plus pertinentes pour la comparaison avec le segment de requête, ce qui conduit à une estimation plus précise de la similarité entre segments. Des études d’ablation étendues confirment l’efficacité de l’aggrégation compétitive des similarités entre segments ainsi que de l’embedding co-attentif temporel. Notre méthode surpasser de manière significative les approches les plus avancées actuellement disponibles sur plusieurs jeux de données.