HyperAIHyperAI
vor 2 Monaten

MARS: Mehr Aufmerksamkeit für visuelle Attribute bei der textbasierten Personensuche

Alex Ergasti; Tomaso Fontanini; Claudio Ferrari; Massimo Bertozzi; Andrea Prati
MARS: Mehr Aufmerksamkeit für visuelle Attribute bei der textbasierten Personensuche
Abstract

Textbasierte Personensuche (TBPS) ist ein Problem, das innerhalb der Forschergemeinschaft erhebliches Interesse gefunden hat. Die Aufgabe besteht darin, eines oder mehrere Bilder einer bestimmten Person basierend auf einer textuellen Beschreibung zu retrivieren. Die multimodale Natur der Aufgabe erfordert das Lernen von Repräsentationen, die Text- und Bildinformationen in einem gemeinsamen latente Raum verbinden. Bestehende TBPS-Systeme stehen vor zwei Hauptherausforderungen. Die erste wird als Identitätsrauschen (Inter-Identity Noise) bezeichnet und resultiert aus der inhärenten Unbestimmtheit und Ungenauigkeit von textuellen Beschreibungen; sie zeigt, wie visuelle Merkmalsbeschreibungen allgemein verschiedenen Personen zugeordnet werden können. Die zweite Herausforderung sind die intrinsischen Identitätsvariationen (Intra-Identity Variations), die durch Störfaktoren wie Haltung, Beleuchtung usw. verursacht werden und das visuelle Erscheinungsbild derselben textuellen Merkmale für eine gegebene Person ändern können.Um diese Probleme anzugehen, präsentiert dieser Artikel eine neuartige TBPS-Architektur namens MARS (Mae-Attribute-Relation-Sensitive). Diese verbessert aktuelle state-of-the-art Modelle durch die Einführung von zwei wesentlichen Komponenten: einem visuellen Rekonstruktionsverlust (Visual Reconstruction Loss) und einem Attributverlust (Attribute Loss). Der visuelle Rekonstruktionsverlust nutzt einen Maskierten Autoencoder, der trainiert wird, zufällig maskierte Bildsegmente mit Hilfe der textuellen Beschreibung wiederherzustellen. Dadurch wird das Modell angeregt, expressivere Repräsentationen und textuell-visuelle Beziehungen im latenten Raum zu lernen. Der Attributverlust hingegen gewichtet den Beitrag verschiedener Arten von Attributen, definiert als Adjektiv-Nomen-Konstrukte im Text. Dieser Verlust stellt sicher, dass jedes Attribut im Prozess der Personensuche berücksichtigt wird.Ausführliche Experimente auf drei gängigen Datensätzen, nämlich CUHK-PEDES, ICFG-PEDES und RSTPReid, zeigen Leistungsverbesserungen mit signifikanten Gewinnen im Metrik des mittleren Durchschnittsprecisions (mean Average Precision, mAP) im Vergleich zum aktuellen Stand der Technik.

MARS: Mehr Aufmerksamkeit für visuelle Attribute bei der textbasierten Personensuche | Neueste Forschungsarbeiten | HyperAI