Apprentissage de métriques profondes basé sur l'échantillonnage de graphes pour une ré-identification de personnes généralisable

Des études récentes montrent que, tant le couplage explicite des caractéristiques profondes que les données d'entraînement à grande échelle et diversifiées peuvent améliorer de manière significative la généralisation de la réidentification des personnes. Cependant, l'efficacité de l'apprentissage de couplages profonds sur des données à grande échelle n'a pas encore été suffisamment étudiée. Bien que l'apprentissage avec des paramètres de classification ou une mémoire de classe soit une méthode courante, il entraîne des coûts importants en termes de mémoire et de calcul. En revanche, l'apprentissage par apprentissage métrique profond en paires au sein de mini-batchs serait un meilleur choix. Cependant, la méthode d'échantillonnage aléatoire la plus populaire, le bien connu PK sampler, n'est pas informatif et efficace pour l'apprentissage métrique profond. Bien que l'extraction en ligne d'exemples difficiles ait amélioré l'efficacité de l'apprentissage dans une certaine mesure, l'extraction après échantillonnage aléatoire reste limitée. Cela nous inspire à explorer l'utilisation de l'extraction d'exemples difficiles plus tôt, au stade d'échantillonnage des données. Pour ce faire, dans cet article, nous proposons une méthode d'échantillonnage de mini-batchs efficace appelée échantillonnage graphique (Graph Sampling - GS) pour l'apprentissage métrique profond à grande échelle. L'idée fondamentale est de construire un graphe de relations entre voisins les plus proches pour toutes les classes au début de chaque epoch. Ensuite, chaque mini-batch est composé d'une classe sélectionnée aléatoirement et de ses classes voisines les plus proches afin de fournir des exemples informatifs et difficiles pour l'apprentissage. Associée à une ligne de base compétitive adaptée, notre méthode améliore considérablement l'état de l'art en matière de réidentification généralisable des personnes, avec une augmentation de 25,1 % du taux Rank-1 sur MSMT17 lorsqu'elle est entraînée sur RandPerson. De plus, la méthode proposée surpass également la ligne de base compétitive avec une augmentation du taux Rank-1 de 6,8 % sur CUHK03-NP lorsqu'elle est entraînée sur MSMT17. Parallèlement, le temps d'entraînement est considérablement réduit, passant de 25,4 heures à 2 heures lorsqu'il est effectué sur RandPerson avec 8 000 identités. Le code source est disponible à l'adresse suivante : https://github.com/ShengcaiLiao/QAConv.