HyperAIHyperAI

Command Palette

Search for a command to run...

Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen

Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati

Zusammenfassung

In diesem Paper präsentieren wir einen Ansatz für bedingte und zusammengesetzte Bildretrieval-basiert auf CLIP-Features. In dieser Erweiterung des content-based image retrieval (CBIR) wird ein Bild mit einem Text kombiniert, der Informationen über die Benutzerabsichten enthält und für Anwendungsbereiche wie E-Commerce relevant ist. Der vorgeschlagene Ansatz basiert auf einer ersten Trainingsphase, in der eine einfache Kombination von visuellen und textuellen Features genutzt wird, um den CLIP-Text-Encoder zu feinabstimmen. In einer zweiten Trainingsphase lernen wir ein komplexeres Kombinationsnetzwerk, das visuelle und textuelle Features integriert. In beiden Phasen wird kontrastives Lernen eingesetzt. Der vorgeschlagene Ansatz erreicht state-of-the-art-Leistung für bedingtes CBIR auf dem FashionIQ-Datensatz und für zusammengesetztes CBIR auf dem jüngeren CIRR-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen | Paper | HyperAI