vor 6 Monaten

Zusammenfassung

Gegeben eine Abfrage, die aus einem Referenzbild und einer relativen Beschreibung besteht, besteht das Ziel der zusammengesetzten Bildretrieval-Aufgabe darin, Bilder zu finden, die visuell dem Referenzbild ähnlich sind und gleichzeitig die durch die Beschreibung ausgedrückten Modifikationen integrieren. Da jüngere Forschungsergebnisse die Wirksamkeit von großskaligen vision- und sprachprätrainierten (VLP) Modellen in verschiedenen Aufgaben gezeigt haben, stützen wir uns bei der Lösung der vorliegenden Aufgabe auf Merkmale des OpenAI CLIP-Modells. Zunächst führen wir eine auf die Aufgabe zugeschnittene Feinabstimmung beider CLIP-Encoder durch, wobei wir die elementweise Summe aus visuellen und textuellen Merkmalen nutzen. Im zweiten Schritt trainieren wir ein Kombinierungsnetzwerk (Combiner), das lernt, die Bild-Text-Merkmale zu kombinieren, dabei die multimodale Information integriert und kombinierte Merkmale erzeugt, die zur Durchführung der Retrieval-Aufgabe verwendet werden. In beiden Trainingsphasen setzen wir kontrastives Lernen ein. Ausgehend von den grundlegenden CLIP-Merkmale als Baseline zeigen die experimentellen Ergebnisse, dass sowohl die auf die Aufgabe zugeschnittene Feinabstimmung als auch das sorgfältig entworfene Combiner-Netzwerk äußerst wirksam sind und gegenüber komplexeren state-of-the-art-Ansätzen auf den beiden populären und anspruchsvollen Datensätzen FashionIQ und CIRR bessere Ergebnisse erzielen. Der Quellcode und vortrainierte Modelle sind unter https://github.com/ABaldrati/CLIP4Cir verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Multimodale Darstellung

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Multimodale Darstellung

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen | Paper | HyperAI

Command Palette

Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Komponierte Bildabfrage mittels Kontrastivem Lernen und aufgabeorientierten CLIP-basierten Merkmalen

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters