vor 2 Monaten

PLIP: Sprach-Bild-Vortraining für das Lernen von Personendarstellungen

Jialong Zuo; Jiahao Hong; Feng Zhang; Changqian Yu; Hanyu Zhou; Changxin Gao; Nong Sang; Jingdong Wang

Abstract

Sprachbild-Vortraining ist eine effektive Technik zum Lernen von leistungsfähigen Repräsentationen in allgemeinen Domänen. Allerdings leiden diese allgemeinen Vortrainingmethoden bei der direkten Anwendung auf die Person-Repräsentationslernen an unzufriedenstellender Leistung. Der Grund dafür ist, dass sie wichtige personenspezifische Merkmale vernachlässigen, nämlich feingranulare Attribute und Identitäten. Um dieses Problem zu lösen, schlagen wir ein neues Sprachbild-Vortraining-Framework für das Person-Repräsentationslernen vor, das als PLIP (Person Language-Image Pre-training) bezeichnet wird. Insbesondere haben wir drei Vorwandaufgaben sorgfältig entworfen: 1) Textgesteuerte Bildfärbung, die darauf abzielt, die Korrespondenz zwischen personenspezifischen Bildbereichen und feingranularen farblichen Textphrasen herzustellen. 2) Bildgesteuerte Attributvorhersage, die darauf abzielt, feingranulare Attributinformationen des Personenkorpus im Bild zu extrahieren; und 3) identitätsbasiertes visuell-sprachliches Kontrastieren, das darauf abzielt, die multimodalen Repräsentationen auf der Identitätsebene statt auf der Instanzebene zu korrelieren. Darüber hinaus haben wir zur Implementierung unseres Vortrainingsframeworks einen groß angelegten Personen-Datensatz mit Bild-Text-Paaren erstellt, den SYNTH-PEDES genannt wird, indem wir textuelle Annotationen automatisch generieren. Wir führen das Vortraining von PLIP auf SYNTH-PEDES durch und bewerten unsere Modelle anhand von nachgeschalteten personenzentrierten Aufgaben. PLIP verbessert nicht nur bestehende Methoden in allen diesen Aufgaben erheblich, sondern zeigt auch eine ausgezeichnete Fähigkeit in den Null-Shot- und Domänenverallgemeinerungsszenarien. Der Code, der Datensatz und die Gewichte werden unter~\url{https://github.com/Zplusdragon/PLIP} veröffentlicht werden.