HyperAIHyperAI
vor 2 Monaten

Zu einer einheitlichen textbasierten Personenretrieval: Ein groß angelegtes Mehrattribut- und Sprachsuchbenchmark

Yang, Shuyu ; Zhou, Yinan ; Wang, Yaxiong ; Wu, Yujiao ; Zhu, Li ; Zheng, Zhedong
Zu einer einheitlichen textbasierten Personenretrieval: Ein groß angelegtes Mehrattribut- und Sprachsuchbenchmark
Abstract

In dieser Arbeit stellen wir einen großen Datensatz für die textbasierte Personenrecherche vor, der Multi-Attribute and Language Search (MALS) heißt, und untersuchen die Machbarkeit des Vortrainings sowohl für Attributerkennung als auch für Bild-Text-Zuordnungsaufgaben. Insbesondere enthält MALS 1.510.330 Bild-Text-Paare, was etwa 37,5 Mal so viele wie der weit verbreitete CUHK-PEDES-Datensatz ist, und alle Bilder sind mit 27 Attributen annotiert. Angesichts der Datenschutzbedenken und der Annotationskosten nutzen wir vorgefertigte Diffusionsmodelle zur Generierung des Datensatzes. Um die Machbarkeit des Lernens aus den generierten Daten zu überprüfen, entwickeln wir ein neues gemeinsames Framework für Attribut-Prompt-Lernen und Text-Zuordnungslernen (APTM), das das gemeinsame Wissen zwischen Attributen und Text berücksichtigt. Wie der Name already andeutet, enthält APTM eine Komponente für das Attribut-Prompt-Lernen und eine Komponente für das Text-Zuordnungslernen.(1) Das Attribut-Prompt-Lernen nutzt die Attributprompts zur Anpassung von Bildern an ihre Attribute, was das Text-Zuordnungslernen verbessert.(2) Das Text-Zuordnungslernen fördert das Lernen von detaillierten Darstellungen und steigert dadurch wiederum das Attribut-Prompt-Lernen.Ausführliche Experimente bestätigen die Effektivität des Vortrainings auf MALS, wobei APTM auf drei anspruchsvollen realweltlichen Benchmarks Spitzenleistungen in der Personenrecherche erzielt. Insbesondere zeigt APTM eine konsequente Verbesserung um +6,96 %, +7,68 % und +16,95 % im Recall@1-Akkuranz auf den CUHK-PEDES-, ICFG-PEDES- und RSTPReid-Datensätzen jeweils deutlich.

Zu einer einheitlichen textbasierten Personenretrieval: Ein groß angelegtes Mehrattribut- und Sprachsuchbenchmark | Neueste Forschungsarbeiten | HyperAI