Neuüberlegung der Fußgängerattributerkennung: Realistische Datensätze mit effizienter Methode

Trotz der vorgeschlagenen verschiedenen Methoden zur Verbesserung der Pedestrierattributenerkennung wird ein wesentlicher Problem bei existierenden Datensätzen oft vernachlässigt: die große Anzahl identischer Pedestrieridentitäten in Trainings- und Testsets, was nicht mit praktischen Anwendungen übereinstimmt. Dadurch sind die Bilder derselben Pedestrieridentität in den Trainings- und Testsets extrem ähnlich, was zu einer übertriebenen Leistungsbewertung der neuesten Methoden auf existierenden Datensätzen führt. Um dieses Problem anzugehen, schlagen wir zwei realistische Datensätze vor: PETA\textsubscript{$zs$} und RAPv2\textsubscript{$zs$}, die auf den zero-shot-Einstellungen von PETA und RAPv2 basieren. Darüber hinaus haben wir festgestellt, dass kürzlich entwickelte state-of-the-art-Methoden keine Leistungsverbesserung auf PETA, RAPv2, PETA\textsubscript{$zs$} und RAPv2\textsubscript{$zs$} gegenüber unserer starken Baselinemethode erzielen können. Daher wurde eine effiziente Methode vorgeschlagen, um durch das Lösen des inhärenten Attributendefizits in der Pedestrierattributenerkennung die Leistung weiter zu verbessern. Experimente auf existierenden sowie vorgeschlagenen Datensätzen bestätigen die Überlegenheit unserer Methode durch das Erreichen state-of-the-art-Ergebnisse.