HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP-ReID: Nutzung eines visuellen und sprachlichen Modells für die Bild-Wiedererkennung ohne konkrete Textetiketten

Siyuan Li Li Sun* Qingli Li

Zusammenfassung

Vorab trainierte visuelle-linguistische Modelle wie CLIP haben kürzlich auf verschiedenen Downstream-Aufgaben, einschließlich der Bildklassifizierung und -segmentierung, überlegene Leistungen gezeigt. Bei feingranularen Bild-Wiedererkennungsaufgaben (ReID) sind die Labels jedoch Indizes, die keine konkreten Textbeschreibungen enthalten. Daher ist es noch unklar, wie solche Modelle auf diese Aufgaben angewendet werden können. In dieser Arbeit wird zunächst gezeigt, dass das einfache Feinjustieren des durch den Bildencoder in CLIP initialisierten visuellen Modells bereits wettbewerbsfähige Leistungen bei verschiedenen ReID-Aufgaben erzielt. Anschließend schlagen wir eine zweistufige Strategie vor, um eine bessere visuelle Darstellung zu ermöglichen. Das Kernkonzept besteht darin, die multimodale Beschreibungsfähigkeit von CLIP vollständig auszunutzen, indem für jede ID ein Satz lernfähiger Texttokens verwendet wird und diese dem Textencoder zur Verfügung gestellt werden, um vage Beschreibungen zu bilden. Im ersten Trainingsstadium bleiben die Bild- und Textencoders von CLIP unverändert, während nur die Texttokens von Grund auf neu optimiert werden, basierend auf dem Kontrastivverlust innerhalb eines Batches. Im zweiten Stadium werden die ID-spezifischen Texttokens und ihr Encoder statisch gehalten, um Restriktionen für das Feinjustieren des Bildencoders bereitzustellen. Mit Hilfe des im Downstream-Aufgabengebiet entwickelten Verlusts kann der Bildencoder Daten als Vektoren in der Merkmalsdarstellung präzise repräsentieren. Die Effektivität der vorgeschlagenen Strategie wurde an mehreren Datensätzen für Person- oder Fahrzeug-Wiedererkennungsaufgaben validiert. Der Quellcode ist unter https://github.com/Syliz517/CLIP-ReID verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp