HyperAIHyperAI
il y a 17 jours

FlipReID : Réduire l'écart entre l'entraînement et l'inférence en réidentification de personnes

Xingyang Ni, Esa Rahtu
FlipReID : Réduire l'écart entre l'entraînement et l'inférence en réidentification de personnes
Résumé

Étant donné que les réseaux de neurones sont exigeants en données, l’incorporation de techniques d’augmentation des données pendant l’entraînement est une pratique couramment adoptée afin d’élargir les jeux de données et d’améliorer la généralisation. D’un autre côté, l’agrégation des prédictions issues de plusieurs échantillons augmentés (c’est-à-dire l’augmentation au moment de l’inférence) peut encore renforcer les performances. Dans le cadre des modèles de réidentification de personnes, il est courant d’extraire des embeddings à la fois des images originales et de leurs variantes retournées horizontalement. La représentation finale est alors la moyenne des vecteurs de caractéristiques mentionnés. Toutefois, ce schéma crée un écart entre l’entraînement et l’inférence, car les vecteurs de caractéristiques moyennés lors de l’inférence ne font pas partie du pipeline d’entraînement. Dans cette étude, nous proposons la structure FlipReID, accompagnée d’une perte de retournement, afin de résoudre ce problème. Plus précisément, les modèles utilisant la structure FlipReID sont entraînés simultanément sur les images originales et leurs versions retournées, et l’introduction de la perte de retournement permet de minimiser l’erreur quadratique moyenne entre les vecteurs de caractéristiques des paires d’images correspondantes. Des expériences étendues montrent que notre méthode apporte des améliorations cohérentes. En particulier, nous établissons un nouveau record sur MSMT17, qui est le plus grand jeu de données de réidentification de personnes. Le code source est disponible à l’adresse suivante : https://github.com/nixingyang/FlipReID.