Textbasierte Personensuche mit begrenzten Daten

Textbasierte Personensuche (TBPS) zielt darauf ab, eine Zielperson mittels einer beschreibenden Textanfrage aus einem Bildkatalog zu retrivieren. Die Lösung dieser feinkörnigen multimodalen Retrieval-Aufgabe ist herausfordernd und wird durch den Mangel an groß angelegten Datensätzen weiter erschwert. In diesem Artikel präsentieren wir ein Framework mit zwei neuartigen Komponenten, um die Probleme zu bewältigen, die durch begrenzte Daten entstehen. Erstens, um die vorhandenen kleineren Benchmark-Datensätze vollständig für ein differenzierteres Merkmalslernen zu nutzen, führen wir einen multimodalen Momentum-Kontrast-Lernrahmen ein, der die Trainingsdaten für einen gegebenen Minibatch erweitert. Zweitens schlagen wir vor, Wissen von bestehenden grobkörnigen großen Datensätzen mit Bild-Text-Paaren aus völlig unterschiedlichen Problemgebieten zu transferieren, um den Mangel an TBPS-Trainingsdaten auszugleichen. Eine Transfer-Lernmethode wurde entwickelt, sodass nützliche Informationen trotz des großen Domänenunterschieds übertragen werden können. Mit diesen Komponenten erreicht unsere Methode neue Standartechniken auf dem CUHK-PEDES-Datensatz und zeigt signifikante Verbesserungen im Vergleich zum bisherigen Stand der Technik hinsichtlich Rank-1 und mAP. Unser Code ist unter https://github.com/BrandonHanx/TextReID verfügbar.请注意,虽然您的要求中提到“使其更符合法语读者的阅读习惯”,但这里应该是笔误,因为您需要的是德语翻译。上述翻译已根据德语的阅读习惯进行了优化。