HyperAIHyperAI
vor 2 Monaten

DLCR: Ein generatives Datenexpansionsframework durch Diffusion für die Personenerkennung bei Kleiderwechsel

Siddiqui, Nyle ; Croitoru, Florinel Alin ; Nayak, Gaurav Kumar ; Ionescu, Radu Tudor ; Shah, Mubarak
DLCR: Ein generatives Datenexpansionsframework durch Diffusion für die Personenerkennung bei Kleiderwechsel
Abstract

Mit der kürzlich gezeigten Stärke von generativen Diffusionsmodellen stellt sich die offene Forschungsfrage, ob Bilder, die durch diese Modelle erzeugt werden, verwendet werden können, um bessere visuelle Repräsentationen zu lernen. Obwohl diese generative Datenaugmentierung für einfachere visuelle Aufgaben ausreichend sein mag, untersuchen wir ihre Effektivität bei einer schwierigeren diskriminativen Aufgabe: der Personenerkennung bei Kleiderwechsel (CC-ReID). Das Ziel von CC-ReID ist es, Personen in nicht überlappenden Kameras zuzuordnen, auch wenn sie zwischen den Kameras ihre Kleidung wechseln. Aktuelle CC-ReID-Modelle sind nicht nur durch das begrenzte Kleidungsdiversität in aktuellen CC-ReID-Datensätzen eingeschränkt, sondern es besteht auch die Herausforderung, zusätzliche Daten zu generieren, die wichtige persönliche Merkmale für eine genaue Identifizierung beibehalten. Um dieses Problem anzugehen, schlagen wir DLCR vor, einen neuen Datenaugmentierungsrahmen, der vortrainierte Diffusionsmodelle und große Sprachmodelle (LLMs) nutzt, um vielfältige Bilder von Individuen in unterschiedlicher Kleidung präzise zu erzeugen. Wir generieren zusätzliche Daten für fünf Benchmark-CC-ReID-Datensätze (PRCC, CCVID, LaST, VC-Clothes und LTCC) und erhöhen deren Kleidungsdiversität um das Zehnfache auf insgesamt über 2,1 Millionen generierte Bilder. DLCR verwendet diffusionsbasiertes textgeführtes Inpainting unter Berücksichtigung von mit LLMs erstellten Kleideranweisungen (clothing prompts), um synthetische Daten zu erzeugen, die nur die Kleidung eines Subjekts ändern und gleichzeitig dessen persönlich identifizierbare Merkmale bewahren. Mit dieser massiven Datenerweiterung führen wir zwei neue Strategien ein – progressives Lernen und Verfeinerung der Testzeitvorhersage – die jeweils die Trainingszeit reduzieren und die Leistung des CC-ReID weiter verbessern. Bei dem PRCC-Datensatz erreichen wir eine erhebliche Verbesserung der Top-1-Akkuratesse um 11,3 % durch das Training von CAL, einer früheren Stand-of-the-Art-Methode (SOTA), mit DLCR-generierten Daten. Wir veröffentlichen unser Code und die generierten Daten für jeden Datensatz hier: https://github.com/CroitoruAlin/dlcr.

DLCR: Ein generatives Datenexpansionsframework durch Diffusion für die Personenerkennung bei Kleiderwechsel | Neueste Forschungsarbeiten | HyperAI