Prototypische kontrastive Lernansätze zur Feinabstimmung von CLIP für die Objekt-Re-Identifikation

Diese Arbeit zielt darauf ab, großskalige vortrainierte vision-sprachliche Modelle wie Contrastive Language-Image Pretraining (CLIP) anzupassen, um die Leistungsfähigkeit der Objekt-Reidentifikation (Re-ID) unter verschiedenen Supervisions-Szenarien zu verbessern. Obwohl Prompt-Learning in der jüngsten Arbeit CLIP-ReID zu vielversprechenden Ergebnissen geführt hat, bleiben die zugrundeliegenden Mechanismen und die Notwendigkeit von Prompt-Learning aufgrund des Fehlens semantischer Labels in Re-ID-Aufgaben unklar. In dieser Arbeit analysieren wir zunächst die Rolle des Prompt-Learning in CLIP-ReID und identifizieren dessen Grenzen. Auf Basis unserer Untersuchungen schlagen wir einen einfachen, jedoch wirksamen Ansatz zur Anpassung von CLIP für überwachte Objekt-Re-ID vor. Unser Ansatz feintunet direkt den Bildencoder von CLIP mittels einer prototypischen kontrastiven Lernverlustfunktion (PCL), wodurch der Einsatz von Prompt-Learning entfällt. Experimentelle Ergebnisse auf sowohl Personen- als auch Fahrzeug-Re-ID-Datensätzen zeigen die Wettbewerbsfähigkeit unseres Ansatzes gegenüber CLIP-ReID. Darüber hinaus erweitern wir unseren auf PCL basierenden Feintuning-Ansatz auf unüberwachte Szenarien, in denen wir eine state-of-the-art-Leistung erzielen.