HyperAIHyperAI

Command Palette

Search for a command to run...

PLIP: Sprach-Bild-Vortraining für das Lernen von Personendarstellungen

Jialong Zuo Jiahao Hong Feng Zhang Changqian Yu Hanyu Zhou Changxin Gao Nong Sang Jingdong Wang

Zusammenfassung

Sprachbild-Vortraining ist eine effektive Technik zum Lernen von leistungsfähigen Repräsentationen in allgemeinen Domänen. Allerdings leiden diese allgemeinen Vortrainingmethoden bei der direkten Anwendung auf die Person-Repräsentationslernen an unzufriedenstellender Leistung. Der Grund dafür ist, dass sie wichtige personenspezifische Merkmale vernachlässigen, nämlich feingranulare Attribute und Identitäten. Um dieses Problem zu lösen, schlagen wir ein neues Sprachbild-Vortraining-Framework für das Person-Repräsentationslernen vor, das als PLIP (Person Language-Image Pre-training) bezeichnet wird. Insbesondere haben wir drei Vorwandaufgaben sorgfältig entworfen: 1) Textgesteuerte Bildfärbung, die darauf abzielt, die Korrespondenz zwischen personenspezifischen Bildbereichen und feingranularen farblichen Textphrasen herzustellen. 2) Bildgesteuerte Attributvorhersage, die darauf abzielt, feingranulare Attributinformationen des Personenkorpus im Bild zu extrahieren; und 3) identitätsbasiertes visuell-sprachliches Kontrastieren, das darauf abzielt, die multimodalen Repräsentationen auf der Identitätsebene statt auf der Instanzebene zu korrelieren. Darüber hinaus haben wir zur Implementierung unseres Vortrainingsframeworks einen groß angelegten Personen-Datensatz mit Bild-Text-Paaren erstellt, den SYNTH-PEDES genannt wird, indem wir textuelle Annotationen automatisch generieren. Wir führen das Vortraining von PLIP auf SYNTH-PEDES durch und bewerten unsere Modelle anhand von nachgeschalteten personenzentrierten Aufgaben. PLIP verbessert nicht nur bestehende Methoden in allen diesen Aufgaben erheblich, sondern zeigt auch eine ausgezeichnete Fähigkeit in den Null-Shot- und Domänenverallgemeinerungsszenarien. Der Code, der Datensatz und die Gewichte werden unter~\url{https://github.com/Zplusdragon/PLIP} veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp