Automatische synthetische Daten und feingranulare adaptive Merkmalsausrichtung für komplexe Personenrecherche

Die Personenerkennung hat zunehmend an Bedeutung gewonnen. Bestehende Methoden lassen sich hauptsächlich in zwei Suchmodi unterteilen, nämlich den bildbasierten und den textbasierten Modus. Allerdings sind diese Ansätze nicht in der Lage, die verfügbare Information vollständig zu nutzen und haben Schwierigkeiten, die vielfältigen Anforderungen verschiedener Anwendungen zu erfüllen. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Aufgabe namens Composed Person Retrieval (CPR) vor, die visuelle und textuelle Abfragen kombiniert, um Personen von Interesse aus umfangreichen Personenbild-Datenbanken zu identifizieren. Dennoch stellt das Hauptproblem der CPR-Aufgabe das Fehlen geeigneter annotierter Datensätze dar. Deshalb stellen wir als Erstes einen skalierbaren automatischen Daten合成管道前,我们先将其分解为文本四元组的创建,随后利用微调生成模型进行身份一致的图像合成。同时,设计了一种多模态过滤方法,以确保生成的SynCPR数据集保留了115万高质量且完全合成的三元组。此外,为了提高复合人物查询的表示能力,我们提出了一种新的细粒度自适应特征对齐(FAFA)框架,通过细粒度动态对齐和掩码特征推理实现。此外,为了客观评估,我们手动注释了Image-Text Composed Person Retrieval (ITCPR)测试集。大量的实验表明,SynCPR数据集的有效性和所提出的FAFA框架在与现有最先进方法相比时的优势。所有代码和数据将在 https://github.com/Delong-liu-bupt/Composed_Person_Retrieval 提供。德语翻译:Die Personenerkennung hat zunehmend an Bedeutung gewonnen. Bestehende Methoden lassen sich hauptsächlich in zwei Suchmodi unterteilen: den bildbasierten und den textbasierten Modus. Allerdings sind diese Ansätze nicht in der Lage, die verfügbare Information vollständig zu nutzen und haben Schwierigkeiten, die vielfältigen Anforderungen verschiedener Anwendungen zu erfüllen. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Aufgabe namens Composed Person Retrieval (CPR) vor, die visuelle und textuelle Abfragen kombiniert, um Personen von Interesse aus umfangreichen Personenbild-Datenbanken zu identifizieren.Das Hauptproblem der CPR-Aufgabe ist jedoch das Fehlen geeigneter annotierter Datensätze. Daher führen wir als Erstes einen skalierbaren automatischen Daten-Syntheseprozess ein, der die Erstellung komplexer multimodaler Daten in die Schaffung von textuellen Quadrupeln (textual quadruples) und anschließend in die Identitätskonsistente Bildsynthese mithilfe fein justierter Generativer Modelle aufspaltet.Gleichzeitig wurde eine multimodale Filtermethode entwickelt, um sicherzustellen, dass der resultierende SynCPR-Datensatz 1,15 Millionen hochwertige und vollständig synthetische Triplette beibehält. Darüber hinaus zur Verbesserung der Repräsentation von zusammengesetzten Personabfragen schlagen wir ein neues Framework für feingranuläre adaptive Merkmalsausrichtung (Fine-grained Adaptive Feature Alignment - FAFA) vor, das durch feingranuläre dynamische Ausrichtung und maskierte Merkmalsinferenz realisiert wird.Zur objektiven Bewertung haben wir zudem den Image-Text Composed Person Retrieval (ITCPR)-Testdatensatz manuell annotiert. Umfangreiche Experimente zeigen die Effektivität des SynCPR-Datensatzes sowie die Überlegenheit des vorgeschlagenen FAFA-Frameworks im Vergleich zu den aktuellen Stand-der-Technik-Methoden. Der gesamte Code und alle Daten werden unter https://github.com/Delong-liu-bupt/Composed_Person_Retrieval bereitgestellt.