HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachbasiert effizientes Training für zero-shot kombinierte Bildsuche

Geonmo Gu Sanghyuk Chun Wonjae Kim Yoohoon Kang Sangdoo Yun

Zusammenfassung

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR) besteht darin, eine Kombination aus Bild- und Textanfrage zu verarbeiten, um relevante Bilder für beide Bedingungen zu finden. Herkömmliche CIR-Ansätze erfordern ein Trainingsdatensatz, der aus Tripletten von Anfragebild, Anfragetext und Zielbild besteht, was sehr kostspielig ist, zu sammeln. Mehrere kürzlich veröffentlichte Arbeiten haben sich mit dem Paradigma der Nullschuss-(Zero-Shot, ZS)-CIR beschäftigt, um dieses Problem ohne die Verwendung vorab gesammelter Tripletten anzugehen. Dennoch zeigen die existierenden ZS-CIR-Methoden aufgrund des Mangels an Vielfalt der Eingabetexte während des Trainings eine begrenzte Skalierbarkeit und Generalisierungsfähigkeit des Backbones.Wir schlagen einen neuen CIR-Rahmen vor, der ausschließlich Sprache für das Training verwendet. Unser LinCIR (Language-only training for CIR) kann nur mit Textdatensätzen durch eine neuartige Selbstüberwachung namens Selbstmaskierungprojektion (Self-Masking Projection, SMP) trainiert werden. Wir projizieren die latente Texteinbettung in den Token-Einbettungsraum und erstellen einen neuen Text, indem wir die Schlüsselwort-Token des ursprünglichen Textes durch andere ersetzen. Anschließend lassen wir den neuen und den ursprünglichen Text denselben latenten Einbettungsvektor haben. Mit dieser einfachen Strategie ist LinCIR überraschend effizient und hochwirksam; LinCIR mit CLIP ViT-G Backbone wird in 48 Minuten trainiert und zeigt die besten ZS-CIR-Leistungen auf vier verschiedenen CIR-Benchmarks: CIRCO, GeneCIS, FashionIQ und CIRR – es übertrifft sogar die überwachten Methoden auf FashionIQ. Der Quellcode ist unter https://github.com/navervision/lincir verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp