HyperAIHyperAI
vor 2 Monaten

Verbesserung der komponierten Bildsuche durch kontrastives Lernen mit skalierten Positiven und Negativen

Zhangchi Feng; Richong Zhang; Zhijie Nie
Verbesserung der komponierten Bildsuche durch kontrastives Lernen mit skalierten Positiven und Negativen
Abstract

Die Aufgabe der Composed Image Retrieval (CIR) besteht darin, Zielbilder mithilfe einer zusammengesetzten Abfrage zu ermitteln, die aus einem Referenzbild und einem modifizierten Text besteht. Fortgeschrittene Methoden nutzen häufig kontrastives Lernen als Optimierungsziel, das von ausreichend positiven und negativen Beispielen profitiert. Allerdings entstehen bei der Erstellung von Triplets für CIR hohe manuelle Annotierungskosten, was zu einer begrenzten Anzahl an positiven Beispielen führt. Darüber hinaus verwenden bestehende Methoden oft in-batch Negative Sampling, was die Anzahl der für das Modell verfügbaren negativen Beispiele reduziert. Um das Problem des Mangels an Positiven anzugehen, schlagen wir eine DatenGenerierungsmethode vor, die ein multimodales großes Sprachmodell nutzt, um Triplets für CIR zu konstruieren. Um während des Feinabstimmens mehr Negatives einzuführen, entwickeln wir einen zweistufigen Feinabstimmungsrahmen für CIR, dessen zweite Stufe zahlreiche statische Darstellungen von Negativen zur schnellen Optimierung des Repräsentationsraums bereitstellt. Die beiden genannten Verbesserungen können effektiv kombiniert werden und sind so gestaltet, dass sie als Plug-and-Play-Lösung in bestehende CIR-Modelle integriert werden können, ohne deren ursprüngliche Architekturen zu ändern. Ausführliche Experimente und Abschweifungsanalysen zeigen, dass unsere Methode effektiv die Anzahl an Positiven und Negativen erhöht und auf den Datensätzen FashionIQ und CIRR Stand-des-Wissens-Ergebnisse erzielt. Zudem zeigt unsere Methode auch in der zero-shot Composed Image Retrieval gute Leistungen und bietet eine neue Lösung für Szenarien mit geringen Ressourcen. Unser Code und unsere Daten sind unter https://github.com/BUAADreamer/SPN4CIR veröffentlicht.