CLIP-ReID: Nutzung eines visuellen und sprachlichen Modells für die Bild-Wiedererkennung ohne konkrete Textetiketten

Vorab trainierte visuelle-linguistische Modelle wie CLIP haben kürzlich auf verschiedenen Downstream-Aufgaben, einschließlich der Bildklassifizierung und -segmentierung, überlegene Leistungen gezeigt. Bei feingranularen Bild-Wiedererkennungsaufgaben (ReID) sind die Labels jedoch Indizes, die keine konkreten Textbeschreibungen enthalten. Daher ist es noch unklar, wie solche Modelle auf diese Aufgaben angewendet werden können. In dieser Arbeit wird zunächst gezeigt, dass das einfache Feinjustieren des durch den Bildencoder in CLIP initialisierten visuellen Modells bereits wettbewerbsfähige Leistungen bei verschiedenen ReID-Aufgaben erzielt. Anschließend schlagen wir eine zweistufige Strategie vor, um eine bessere visuelle Darstellung zu ermöglichen. Das Kernkonzept besteht darin, die multimodale Beschreibungsfähigkeit von CLIP vollständig auszunutzen, indem für jede ID ein Satz lernfähiger Texttokens verwendet wird und diese dem Textencoder zur Verfügung gestellt werden, um vage Beschreibungen zu bilden. Im ersten Trainingsstadium bleiben die Bild- und Textencoders von CLIP unverändert, während nur die Texttokens von Grund auf neu optimiert werden, basierend auf dem Kontrastivverlust innerhalb eines Batches. Im zweiten Stadium werden die ID-spezifischen Texttokens und ihr Encoder statisch gehalten, um Restriktionen für das Feinjustieren des Bildencoders bereitzustellen. Mit Hilfe des im Downstream-Aufgabengebiet entwickelten Verlusts kann der Bildencoder Daten als Vektoren in der Merkmalsdarstellung präzise repräsentieren. Die Effektivität der vorgeschlagenen Strategie wurde an mehreren Datensätzen für Person- oder Fahrzeug-Wiedererkennungsaufgaben validiert. Der Quellcode ist unter https://github.com/Syliz517/CLIP-ReID verfügbar.