Eine empirische Studie zu CLIP für textbasierte Personensuche

Textbasierte Personen-Suche (TBPS) hat das Ziel, Personenbilder mithilfe natürlicher Sprachbeschreibungen abzurufen. Kürzlich hat Contrastive Language Image Pretraining (CLIP), ein universelles großes multimodales Sehen-Sprache-Vortrainingsmodell, aufgrund seiner leistungsstarken multimodalen semantischen Lernfähigkeit bemerkenswerte Ergebnisse bei verschiedenen multimodalen Downstream-Aufgaben erzielt. Als eine feingranulare multimodale Retrieval-Aufgabe steht auch TBPS vor dem Anstieg der Forschung zu CLIP-basierter TBPS. Um das Potenzial des visuell-sprachlichen Vortrainingsmodells für Downstream-TBPS-Aufgaben zu erforschen, führt dieser Artikel erstmals eine umfassende empirische Studie von CLIP für TBPS durch und trägt damit einer einfachen, inkrementellen, aber dennoch starken TBPS-CLIP-Basislinie zur TBPS-Gemeinschaft bei. Wir beleuchten kritische Designaspekte unter CLIP, darunter Data Augmentation und Verlustfunktion. Das Modell kann mit den genannten Designs und praktischen Trainingsmethoden zufriedenstellende Leistungen erbringen, ohne komplizierte Module zu benötigen. Zudem führen wir Probing-Experimente von TBPS-CLIP in Bezug auf Modellgeneralisierung und Modellkompression durch, die die Effektivität von TBPS-CLIP aus verschiedenen Perspektiven zeigen. Diese Arbeit soll empirische Erkenntnisse liefern und zukünftige CLIP-basierte TBPS-Forschung hervorheben.