HyperAIHyperAI
vor 11 Tagen

Lernen übertragbarer Fußgänger-Repräsentationen aus multimodaler Informationsüberwachung

Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian
Lernen übertragbarer Fußgänger-Repräsentationen aus multimodaler Informationsüberwachung
Abstract

Kürzliche Forschungen im Bereich der unsupervisierten Personen-Identifikation (reID) haben gezeigt, dass die Vortrainierung auf unlabeled Personenbildern eine überlegene Leistung auf nachgeschalteten reID-Aufgaben erzielt im Vergleich zur Vortrainierung auf ImageNet. Allerdings sind diese vortrainierten Methoden speziell für reID entwickelt und weisen eine geringe Flexibilität bei der Anpassung an andere Aufgaben der Fußgängeranalyse auf. In diesem Artikel stellen wir VAL-PAT vor, einen neuartigen Rahmen, der transferierbare Darstellungen lernt, um verschiedene Aufgaben der Fußgängeranalyse mit multimodalen Informationen zu verbessern. Zur Trainingsdurchführung führen wir drei Lernziele ein, nämlich selbstüberwachtes kontrastives Lernen, bild-text-kontrastives Lernen und mehrfach-Attribut-Klassifikation. Das selbstüberwachte kontrastive Lernen fördert die Erfassung der inhärenten Eigenschaften von Personen, während das bild-text-kontrastive Lernen das Modell anleitet, sich auf die Erscheinungsmerkmale von Personen zu konzentrieren. Gleichzeitig ermutigt die mehrfach-Attribut-Klassifikation das Modell, Attribute zu erkennen, um feinkörnige Informationen über Personen zu erschließen. Zunächst führen wir eine Vortrainierung auf dem LUPerson-TA-Datensatz durch, bei dem jedes Bild Text- und Attributannotierungen enthält, und transferieren anschließend die gelernten Darstellungen auf verschiedene nachgeschaltete Aufgaben, darunter Personen-Identifikation, Personen-Attribut-Erkennung und textbasierte Personen-Suche. Umfangreiche Experimente zeigen, dass unser Rahmen die Entwicklung allgemeiner Personen-Darstellungen fördert und somit vielversprechende Ergebnisse bei verschiedenen Aufgaben der Fußgängeranalyse erzielt.

Lernen übertragbarer Fußgänger-Repräsentationen aus multimodaler Informationsüberwachung | Neueste Forschungsarbeiten | HyperAI