HyperAIHyperAI
vor 18 Tagen

Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen

{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}
Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen
Abstract

In diesem Paper präsentieren wir einen Ansatz für bedingte und zusammengesetzte Bildretrieval-basiert auf CLIP-Features. In dieser Erweiterung des content-based image retrieval (CBIR) wird ein Bild mit einem Text kombiniert, der Informationen über die Benutzerabsichten enthält und für Anwendungsbereiche wie E-Commerce relevant ist. Der vorgeschlagene Ansatz basiert auf einer ersten Trainingsphase, in der eine einfache Kombination von visuellen und textuellen Features genutzt wird, um den CLIP-Text-Encoder zu feinabstimmen. In einer zweiten Trainingsphase lernen wir ein komplexeres Kombinationsnetzwerk, das visuelle und textuelle Features integriert. In beiden Phasen wird kontrastives Lernen eingesetzt. Der vorgeschlagene Ansatz erreicht state-of-the-art-Leistung für bedingtes CBIR auf dem FashionIQ-Datensatz und für zusammengesetztes CBIR auf dem jüngeren CIRR-Datensatz.