HyperAIHyperAI

Command Palette

Search for a command to run...

Vortrainen wie Ihre Inferenz: Maschierter Feinjustierung verbessert die zero-shot-komponierte Bildsuche

Chen, Junyang

Zusammenfassung

Zero-Shot Composed Image Retrieval (ZS-CIR), eine Methode, die eine textuelle Änderung und ein Referenzbild als Abfrage verwendet, um ein Zielbild ohne Triplettenbeschriftung zu retrivieren, hat in der Datenbankverwaltung zunehmend an Bedeutung gewonnen. Die aktuelle ZS-CIR-Forschung basiert hauptsächlich auf der Generalisierungsfähigkeit vortrainierter Vision-Sprach-Modelle wie CLIP. Allerdings gibt es erhebliche Unterschiede zwischen den vortrainierten Vision-Sprach-Modellen und den CIR-Aufgaben: Während die Vision-Sprach-Modelle sich auf das Lernen von Ähnlichkeiten konzentrieren, zielt CIR darauf ab, textgeleitete Änderungen des Bildes zu lernen.In dieser Arbeit stellen wir einen neuen Ansatz vor, der unlabeled und vortrainierte maskierte Tuning verwendet, um die Lücke zwischen dem vortrainierten Vision-Sprach-Modell und der nachgeschalteten CIR-Aufgabe zu verringern. Zunächst reformulieren wir das kontrastive Lernen des Vision-Sprach-Modells als CIR-Aufgabe, bei der wir Eingangsbildsegmente zufällig maskeieren, um aus einem Bild-Text-Paar ein \langlemaskiertes Bild, Text, Bild\rangle-Triplet zu generieren. Anschließend schlagen wir eine einfache aber innovative Methode des vortrainierten maskierten Tunings vor, die Text und maskiertes Bild verwendet, um die Änderungen des ursprünglichen Bildes zu lernen. Durch dieses einfache Design kann das vorgeschlagene maskierte Tuning feinkörnige textgeleitete Änderungen besser erfassen.Ausführliche experimentelle Ergebnisse zeigen die signifikante Überlegenheit unseres Ansatzes gegenüber den Basismodellen auf vier ZS-CIR-Datensätzen: FashionIQ, CIRR, CIRCO und GeneCIS. Unser Code ist unter https://github.com/Chen-Junyang-cn/PLI verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp