Halbüberwachte Domänenverallgemeinerbare Personenerkennung

Bestehende Methoden zur Personenerkennung (Re-Identification, Re-ID) sind trotz des Erfolgs bei der Personenübereinstimmung über verschiedene Kameras in neuen, unbekannten Szenarien ineffektiv. Kürzlich wurden erhebliche Bemühungen unternommen, um domänenadaptive Personenerkennungsmethoden zu entwickeln, bei denen umfangreiche nicht beschriftete Daten im neuen Szenario in einem transduktiven Lernverfahren genutzt werden. Jedoch ist für jedes Szenario zunächst eine ausreichende Datensammlung und anschließend das Training eines solchen domänenadaptiven Re-ID-Modells erforderlich, was ihre praktische Anwendung einschränkt. Stattdessen streben wir an, mehrere beschriftete Datensätze zu nutzen, um verallgemeinerte domäneninvariante Darstellungen für die Personenerkennung zu lernen, die universell effektiv für jedes neue Re-ID-Szenario sein sollen.Um die Praktikabilität in realen Systemen zu erhöhen, sammeln wir alle verfügbaren Personenerkennungsdatensätze (20 Datensätze) in diesem Bereich und wählen die drei am häufigsten verwendeten Datensätze (nämlich Market1501, DukeMTMC und MSMT17) als unbekannte Zieldomänen aus. Zudem entwickeln wir DataHunter, ein Tool zur Sammlung von über 300.000 schwach annotierten Bildern namens YouTube-Human aus YouTube-Straßenansichtsvideos. Diese Bilder ergänzen die 17 übrigen vollständig beschrifteten Datensätze und bilden so mehrere Quelldomänen.Auf dieser großen und anspruchsvollen Benchmark-Datenbank FastHuman (ca. 440.000+ beschriftete Bilder) schlagen wir zudem einen einfachen aber effektiven semiaufsichtslosen Wissensdistillationsrahmen (Semi-Supervised Knowledge Distillation, SSKD) vor. SSKD nutzt die schwach annotierten Daten effektiv durch Zuweisung von weichen Pseudobeschriftungen an YouTube-Human, um die Generalisierungsfähigkeit der Modelle zu verbessern. Experimente mit verschiedenen Protokollen bestätigen die Effektivität des vorgeschlagenen SSKD-Rahmens bei der domänenverallgemeinernden Personenerkennung; diese Effektivität ist sogar vergleichbar mit aufsichtsbehaftetem Lernen in den Zieldomänen.Schließlich und vor allem hoffen wir, dass das vorgeschlagene Benchmark-Datensatz FastHuman den nächsten Schritt in der Entwicklung von domänenverallgemeinernden Algorithmen zur Personenerkennung ermöglicht.