HyperAIHyperAI
vor 4 Monaten

Vorstellen und Suchen: Verbesserung der komponierten Bildsuche durch ein imaginäres Proxy

You Li; Fan Ma; Yi Yang
Vorstellen und Suchen: Verbesserung der komponierten Bildsuche durch ein imaginäres Proxy
Abstract

Die Zero-Shot Composed Image Retrieval (ZSCIR) erfordert die Auffindung von Bildern, die sowohl dem Abfragebild als auch den zugehörigen Bildunterschriften entsprechen. Aktuelle Methoden konzentrieren sich darauf, das Abfragebild in den Textmerkmalsraum zu projizieren und es anschließend mit den Merkmalen der Abfragetexte zu kombinieren, um die Auffindung durchzuführen. Allerdings kann die alleinige Verwendung von Textmerkmalen zur Auffindung von Bildern aufgrund des natürlichen Unterschieds zwischen Bildern und Text nicht garantieren, dass alle Details übereinstimmen. In dieser Arbeit stellen wir Imagined Proxy for CIR (IP-CIR) vor, eine trainingsfreie Methode, die ein Proxy-Bild erstellt, das sowohl mit dem Abfragebild als auch mit der textuellen Beschreibung übereinstimmt. Dies verbessert die Abfragemerkmale im Auffindungsprozess. Zunächst nutzen wir die Generalisierungsfähigkeit großer Sprachmodelle, um ein Bildlayout zu generieren. Anschließend wenden wir sowohl den Abfragetext als auch das Abfragebild für eine bedingte Generierung an. Die robusten Abfragemerkmale werden durch die Kombination des Proxy-Bildes, des Abfragebildes und der textuellen semantischen Störungen verstärkt. Unser neu vorgeschlagenes Ausgleichsmetriken integriert textbasierte und Proxy-Auffindungsähnlichkeiten, was eine genauere Auffindung des Zielbildes ermöglicht und gleichzeitig Informationen von der Bilderseite in den Prozess einbezieht. Experimente auf drei öffentlichen Datensätzen zeigen, dass unsere Methode die Auffindungsleistung erheblich verbessert. Wir erreichen state-of-the-art (SOTA) Ergebnisse auf dem CIRR-Datensatz mit einem Recall@K von 70,07 bei K=10. Darüber hinaus konnten wir den Recall@10-Wert auf dem FashionIQ-Datensatz verbessern, indem wir ihn von 45,11 auf 45,74 erhöhten, und verbesserten die Baseline-Leistung in CIRCO durch Erhöhung des mAPK@10-Scores von 32,24 auf 34,26.请注意,这里将“mAPK@10”直接翻译为“mAPK@10”,因为这是一个特定的技术指标,在德语文献中通常会保留其英文形式。如果需要进一步解释该术语,可以在文中添加注释。