Gemeinsames diskriminatives und generatives Lernen für die Person-Wiedererkennung

Die Personenerkennung (Re-Identification, Re-ID) bleibt aufgrund erheblicher innerklassischer Variationen zwischen verschiedenen Kameras eine Herausforderung. In letzter Zeit hat sich das Interesse an der Verwendung generativer Modelle zur Erweiterung von Trainingsdaten und zur Steigerung der Robustheit gegenüber Eingabeveränderungen gesteigert. Die generativen Pipelines bestehender Methoden sind jedoch relativ getrennt von den diskriminativen Re-ID-Lernphasen. Daher werden Re-ID-Modelle oft auf einfachste Weise mit den generierten Daten trainiert. In dieser Arbeit streben wir danach, die gelernten Re-ID-Embeddings durch bessere Nutzung der generierten Daten zu verbessern. Zu diesem Zweck schlagen wir ein gemeinsames Lernframework vor, das die Re-ID-Lernphase und die Datengenerierung von Anfang bis Ende verbindet. Unser Modell umfasst einen generativen Teil, der jede Person in einen Erscheinungscode und einen Strukturcode kodiert, sowie einen diskriminativen Teil, der den Erscheinungsencoder mit dem generativen Teil teilt. Durch das Austauschen von Erscheinungs- oder Strukturcodes kann der generative Teil hochwertige komponierte Bilder verschiedener Personen erzeugen, die dann online zurück an den Erscheinungsencoder geleitet werden und dazu dienen, den diskriminativen Teil zu verbessern. Das vorgeschlagene gemeinsame Lernframework führt zu erheblichen Verbesserungen im Vergleich zur Baseline ohne Verwendung generierter Daten und erreicht damit Spitzenleistungen auf mehreren Benchmark-Datensätzen.