HyperAIHyperAI

Command Palette

Search for a command to run...

Satz-Level-Prompts nutzen die komponierte Bildsuche

Yang Bai¹ Xinxing Xu¹ Yong Liu¹ Salman Khan²,³ Fahad Khan² Wangmeng Zuo⁴ Rick Siow Mong Goh¹ Chun-Mei Feng¹∗

Zusammenfassung

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR) besteht darin, spezifische Bilder durch eine Abfrage zu ermitteln, die sowohl ein Referenzbild als auch eine relative Beschriftung umfasst. Die meisten existierenden CIR-Modelle verwenden die Strategie der späten Fusion, um visuelle und sprachliche Merkmale zu kombinieren. Darüber hinaus wurden auch mehrere Ansätze vorgeschlagen, um aus dem Referenzbild ein Pseudo-Wort-Token zu generieren, das anschließend in die relative Beschriftung für CIR integriert wird. Allerdings haben diese Pseudo-Wort-basierten Prompting-Methoden ihre Grenzen, wenn das Zielbild komplexe Veränderungen am Referenzbild enthält, wie zum Beispiel Objektentfernung und Attributmodifikation. In dieser Arbeit zeigen wir, dass das Lernen eines geeigneten satzbezogenen Prompts für die relative Beschriftung (Sentence-Level Prompt for Relative Caption, SPRC) ausreicht, um effektive zusammengesetzte Bildsuche zu erreichen. Anstatt sich auf Pseudo-Wort-basierte Prompts zu verlassen, schlagen wir vor, vortrainierte V-L-Modelle wie BLIP-2 zu nutzen, um satzbezogene Prompts zu generieren. Durch die Kombination des gelernten satzbezogenen Prompts mit der relativen Beschriftung kann man bestehende textbasierte Bildsuchemodelle direkt nutzen, um die Leistung von CIR zu verbessern. Des Weiteren führen wir sowohl den bild-text-kontrastiven Verlust als auch den Text-Prompt-Ausrichtungsverlust ein, um das Lernen geeigneter satzbezogener Prompts zu fördern. Experimente zeigen, dass unser vorgeschlagener Ansatz den neuesten Methoden der zusammengesetzten Bildsuche auf den Datensätzen Fashion-IQ und CIRR überlegen ist. Der Quellcode und das vortrainierte Modell sind öffentlich verfügbar unter https://github.com/chunmeifeng/SPRC


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp