HyperAI

Abstract

In diesem Paper präsentieren wir einen Ansatz für bedingte und zusammengesetzte Bildretrieval-basiert auf CLIP-Features. In dieser Erweiterung des content-based image retrieval (CBIR) wird ein Bild mit einem Text kombiniert, der Informationen über die Benutzerabsichten enthält und für Anwendungsbereiche wie E-Commerce relevant ist. Der vorgeschlagene Ansatz basiert auf einer ersten Trainingsphase, in der eine einfache Kombination von visuellen und textuellen Features genutzt wird, um den CLIP-Text-Encoder zu feinabstimmen. In einer zweiten Trainingsphase lernen wir ein komplexeres Kombinationsnetzwerk, das visuelle und textuelle Features integriert. In beiden Phasen wird kontrastives Lernen eingesetzt. Der vorgeschlagene Ansatz erreicht state-of-the-art-Leistung für bedingtes CBIR auf dem FashionIQ-Datensatz und für zusammengesetztes CBIR auf dem jüngeren CIRR-Datensatz.

Benchmarks

Benchmark	Methodik	Metriken
image-retrieval-on-cirr	CLIP4Cir (v2)	(Recall@5+Recall_subset@1)/2: 69.09
image-retrieval-on-fashion-iq	CLIP4Cir (v2)	(Recall@10+Recall@50)/2: 50.03
image-retrieval-on-lasco	CLIP4CIR	Recall@1 (%): 4.01

Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen

{Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Bedingte und zusammengesetzte Bildretrieval-Methoden, die CLIP-basierte Merkmale kombinieren und teilweise feinabstimmen

{Alberto del Bimbo Tiberio Uricchio Marco Bertini Alberto Baldrati}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters