HyperAIHyperAI
il y a 2 mois

DLCR : Un Cadre de Génération d'Expansion de Données par Diffusion pour la Ré-Identification de Personnes Changant de Vêtements

Siddiqui, Nyle ; Croitoru, Florinel Alin ; Nayak, Gaurav Kumar ; Ionescu, Radu Tudor ; Shah, Mubarak
DLCR : Un Cadre de Génération d'Expansion de Données par Diffusion pour la Ré-Identification de Personnes Changant de Vêtements
Résumé

Avec la récente démonstration de la puissance des modèles de diffusion génératifs, une question de recherche ouverte est de savoir si les images générées par ces modèles peuvent être utilisées pour apprendre de meilleures représentations visuelles. Bien que cette expansion de données génératives puisse suffire pour des tâches visuelles plus simples, nous explorons son efficacité sur une tâche discriminante plus difficile : l'identification de personnes qui changent de vêtements (CC-ReID). Le CC-ReID vise à faire correspondre des individus apparaissant dans des caméras non superposées, même lorsqu'ils changent de vêtements entre les caméras. Non seulement les modèles actuels de CC-ReID sont limités par la diversité restreinte des vêtements dans les ensembles de données actuels, mais générer des données supplémentaires qui conservent les caractéristiques personnelles importantes pour une identification précise constitue un défi actuel. Pour résoudre ce problème, nous proposons DLCR, un nouveau cadre d'expansion des données qui utilise des modèles de diffusion pré-entraînés et des grands modèles linguistiques (LLMs) pour générer avec précision des images diverses d'individus en différents vêtements. Nous générons des données supplémentaires pour cinq ensembles de données de référence en CC-ReID (PRCC, CCVID, LaST, VC-Clothes et LTCC) et augmentons leur diversité vestimentaire par un facteur 10, totalisant plus de 2,1 millions d'images générées. DLCR emploie une inpainting guidée par le texte basée sur la diffusion, conditionnée aux prompts vestimentaires construits à l'aide de LLMs, pour générer des données synthétiques qui ne modifient que les vêtements d'un sujet tout en préservant ses caractéristiques identifiables personnellement. Avec cette augmentation massive des données, nous introduisons deux nouvelles stratégies – l'apprentissage progressif et le raffinement des prédictions au moment du test – qui réduisent respectivement le temps d'entraînement et améliorent davantage les performances du CC-ReID. Sur l'ensemble de données PRCC, nous obtenons une amélioration significative de la précision top-1 de 11,3 % en entraînant CAL, une méthode précédemment considérée comme étant à l'état de l'art (SOTA), avec les données générées par DLCR. Nous mettons notre code et nos données générées pour chaque ensemble de données à disposition publiquement ici : https://github.com/CroitoruAlin/dlcr.

DLCR : Un Cadre de Génération d'Expansion de Données par Diffusion pour la Ré-Identification de Personnes Changant de Vêtements | Articles de recherche récents | HyperAI