HyperAIHyperAI

Command Palette

Search for a command to run...

Prototypische kontrastive Lernansätze zur Feinabstimmung von CLIP für die Objekt-Re-Identifikation

Jiachen Li Xiaojin Gong

Zusammenfassung

Diese Arbeit zielt darauf ab, großskalige vortrainierte vision-sprachliche Modelle wie Contrastive Language-Image Pretraining (CLIP) anzupassen, um die Leistungsfähigkeit der Objekt-Reidentifikation (Re-ID) unter verschiedenen Supervisions-Szenarien zu verbessern. Obwohl Prompt-Learning in der jüngsten Arbeit CLIP-ReID zu vielversprechenden Ergebnissen geführt hat, bleiben die zugrundeliegenden Mechanismen und die Notwendigkeit von Prompt-Learning aufgrund des Fehlens semantischer Labels in Re-ID-Aufgaben unklar. In dieser Arbeit analysieren wir zunächst die Rolle des Prompt-Learning in CLIP-ReID und identifizieren dessen Grenzen. Auf Basis unserer Untersuchungen schlagen wir einen einfachen, jedoch wirksamen Ansatz zur Anpassung von CLIP für überwachte Objekt-Re-ID vor. Unser Ansatz feintunet direkt den Bildencoder von CLIP mittels einer prototypischen kontrastiven Lernverlustfunktion (PCL), wodurch der Einsatz von Prompt-Learning entfällt. Experimentelle Ergebnisse auf sowohl Personen- als auch Fahrzeug-Re-ID-Datensätzen zeigen die Wettbewerbsfähigkeit unseres Ansatzes gegenüber CLIP-ReID. Darüber hinaus erweitern wir unseren auf PCL basierenden Feintuning-Ansatz auf unüberwachte Szenarien, in denen wir eine state-of-the-art-Leistung erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp