HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen übertragbarer Fußgänger-Repräsentationen aus multimodaler Informationsüberwachung

Liping Bao Longhui Wei Xiaoyu Qiu Wengang Zhou Houqiang Li Qi Tian

Zusammenfassung

Kürzliche Forschungen im Bereich der unsupervisierten Personen-Identifikation (reID) haben gezeigt, dass die Vortrainierung auf unlabeled Personenbildern eine überlegene Leistung auf nachgeschalteten reID-Aufgaben erzielt im Vergleich zur Vortrainierung auf ImageNet. Allerdings sind diese vortrainierten Methoden speziell für reID entwickelt und weisen eine geringe Flexibilität bei der Anpassung an andere Aufgaben der Fußgängeranalyse auf. In diesem Artikel stellen wir VAL-PAT vor, einen neuartigen Rahmen, der transferierbare Darstellungen lernt, um verschiedene Aufgaben der Fußgängeranalyse mit multimodalen Informationen zu verbessern. Zur Trainingsdurchführung führen wir drei Lernziele ein, nämlich selbstüberwachtes kontrastives Lernen, bild-text-kontrastives Lernen und mehrfach-Attribut-Klassifikation. Das selbstüberwachte kontrastive Lernen fördert die Erfassung der inhärenten Eigenschaften von Personen, während das bild-text-kontrastive Lernen das Modell anleitet, sich auf die Erscheinungsmerkmale von Personen zu konzentrieren. Gleichzeitig ermutigt die mehrfach-Attribut-Klassifikation das Modell, Attribute zu erkennen, um feinkörnige Informationen über Personen zu erschließen. Zunächst führen wir eine Vortrainierung auf dem LUPerson-TA-Datensatz durch, bei dem jedes Bild Text- und Attributannotierungen enthält, und transferieren anschließend die gelernten Darstellungen auf verschiedene nachgeschaltete Aufgaben, darunter Personen-Identifikation, Personen-Attribut-Erkennung und textbasierte Personen-Suche. Umfangreiche Experimente zeigen, dass unser Rahmen die Entwicklung allgemeiner Personen-Darstellungen fördert und somit vielversprechende Ergebnisse bei verschiedenen Aufgaben der Fußgängeranalyse erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen übertragbarer Fußgänger-Repräsentationen aus multimodaler Informationsüberwachung | Paper | HyperAI