HyperAIHyperAI
vor 2 Monaten

Ist ein synthetischer Datensatz für die Bewertung der Verallgemeinerungsfähigkeit von Person-Wiedererkennung zuverlässig?

Kang, Cuicui
Ist ein synthetischer Datensatz für die Bewertung der Verallgemeinerungsfähigkeit von Person-Wiedererkennung zuverlässig?
Abstract

Neuere Studien zeigen, dass Modelle, die auf synthetischen Datensätzen trainiert wurden, bessere allgemein verallgemeinerbare Leistungen bei der Personenerkennung (GPReID) erzielen als solche, die auf öffentlichen realen Datensätzen trainiert wurden. Andererseits ist es aufgrund der Einschränkungen realer Person-ReID-Datensätze auch wichtig und interessant, große synthetische Datensätze als Testsets zu verwenden, um Person-ReID-Algorithmen zu bewerten. Dies wirft jedoch eine entscheidende Frage auf: Ist ein synthetischer Datensatz für die Bewertung allgemein verallgemeinerbarer Personenerkennung zuverlässig? In der Literatur gibt es keine Beweise dafür. Um dies zu klären, entwickeln wir eine Methode namens Paarweise Ranganalyse (Pairwise Ranking Analysis, PRA), um die Rangähnlichkeit quantitativ zu messen und den statistischen Test identischer Verteilungen durchzuführen.Speziell verwenden wir Kendall-Rangkorrelationskoeffizienten, um die paarweisen Ähnlichkeitswerte zwischen den Algorithmenrangfolgen auf verschiedenen Datensätzen zu bewerten. Anschließend wird ein nichtparametrischer Zweistichproben-Kolmogorow-Smirnow-Test (Kolmogorov-Smirnov test, KS-Test) durchgeführt, um festzustellen, ob die Rangkorrelationen zwischen synthetischen und realen Datensätzen sowie jene nur zwischen realen Datensätzen in identischen Verteilungen liegen. Wir führen umfassende Experimente mit zehn repräsentativen Algorithmen, drei beliebten realen Person-ReID-Datensätzen und drei kürzlich veröffentlichten großen synthetischen Datensätzen durch.Durch die entwickelte Paarweise Ranganalyse und umfassende Evaluierungen kommen wir zu dem Schluss, dass der kürzlich veröffentlichte große synthetische Datensatz ClonedPerson zuverlässig zur Bewertung von GPReID verwendet werden kann und statistisch den realen Datensätzen entspricht. Somit garantiert diese Studie die Verwendung von synthetischen Datensätzen sowohl als Quelltrainingsset als auch als Zieltestset, ohne jegliche Datenschutzbedenken aus realen Überwachungsdaten. Zudem könnte diese Studie möglicherweise zukünftige Entwürfe von synthetischen Datensätzen inspirieren.