HyperAIHyperAI
il y a 14 jours

Intégration robuste d'ancres pour la ré-identification de personnes dans des vidéos non supervisée dans des environnements réels

{Xiangyuan Lan, Pong C. Yuen, Mang Ye}
Intégration robuste d'ancres pour la ré-identification de personnes dans des vidéos non supervisée dans des environnements réels
Résumé

Ce papier aborde les problèmes de scalabilité et de robustesse liés à l'estimation des étiquettes à partir de données non étiquetées déséquilibrées pour la réidentification de personnes (re-ID) vidéo non supervisée. Pour y parvenir, nous proposons un cadre novateur, appelé Robust AnChor Embedding (RACE), fondé sur l'apprentissage de représentations par caractéristiques profondes, destiné à la réidentification vidéo à grande échelle sans supervision. Dans ce cadre, des séquences d'ancrage représentant différentes personnes sont d'abord sélectionnées afin de constituer un graphe d'ancrage, qui sert également à initialiser le modèle CNN afin d’obtenir des représentations de caractéristiques discriminantes pour l’estimation ultérieure des étiquettes. Pour estimer précisément les étiquettes à partir de séquences non étiquetées comportant des cadres bruités, une embedding d’ancrage robuste est introduite, basée sur l’enveloppe affine régularisée. L’efficacité est garantie par l’utilisation d’un embedding basé sur les k plus proches voisins (kNN) au lieu de l’ensemble complet des ancres, sous l’hypothèse de variétés (manifold). Par la suite, une stratégie robuste et efficace de prédiction des étiquettes basée sur les k plus fréquentes (top-k counts) est proposée pour prédire les étiquettes des séquences d’images non étiquetées. Grâce aux séquences nouvellement estimées comme étiquetées, le cadre d’embedding d’ancrage unifié permet de renforcer davantage le processus d’apprentissage des caractéristiques. Des résultats expérimentaux étendus sur un grand jeu de données montrent que la méthode proposée surpasser les approches existantes de réidentification vidéo non supervisée.