HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einer einheitlichen textbasierten Personenretrieval: Ein groß angelegtes Mehrattribut- und Sprachsuchbenchmark

Shuyu Yang Yinan Zhou Yaxiong Wang Yujiao Wu Li Zhu Zhedong Zheng

Zusammenfassung

In dieser Arbeit stellen wir einen großen Datensatz für die textbasierte Personenrecherche vor, der Multi-Attribute and Language Search (MALS) heißt, und untersuchen die Machbarkeit des Vortrainings sowohl für Attributerkennung als auch für Bild-Text-Zuordnungsaufgaben. Insbesondere enthält MALS 1.510.330 Bild-Text-Paare, was etwa 37,5 Mal so viele wie der weit verbreitete CUHK-PEDES-Datensatz ist, und alle Bilder sind mit 27 Attributen annotiert. Angesichts der Datenschutzbedenken und der Annotationskosten nutzen wir vorgefertigte Diffusionsmodelle zur Generierung des Datensatzes. Um die Machbarkeit des Lernens aus den generierten Daten zu überprüfen, entwickeln wir ein neues gemeinsames Framework für Attribut-Prompt-Lernen und Text-Zuordnungslernen (APTM), das das gemeinsame Wissen zwischen Attributen und Text berücksichtigt. Wie der Name already andeutet, enthält APTM eine Komponente für das Attribut-Prompt-Lernen und eine Komponente für das Text-Zuordnungslernen.(1) Das Attribut-Prompt-Lernen nutzt die Attributprompts zur Anpassung von Bildern an ihre Attribute, was das Text-Zuordnungslernen verbessert.(2) Das Text-Zuordnungslernen fördert das Lernen von detaillierten Darstellungen und steigert dadurch wiederum das Attribut-Prompt-Lernen.Ausführliche Experimente bestätigen die Effektivität des Vortrainings auf MALS, wobei APTM auf drei anspruchsvollen realweltlichen Benchmarks Spitzenleistungen in der Personenrecherche erzielt. Insbesondere zeigt APTM eine konsequente Verbesserung um +6,96 %, +7,68 % und +16,95 % im Recall@1-Akkuranz auf den CUHK-PEDES-, ICFG-PEDES- und RSTPReid-Datensätzen jeweils deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp