HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

{Bohyung Han Dongwan Kim Seungmin Lee}

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

Abstract

Wir behandeln die Aufgabe der Bildretrieval mit Textfeedback, bei der ein Referenzbild und modifizierender Text kombiniert werden, um das gewünschte Zielbild zu identifizieren. Unser Fokus liegt auf der Gestaltung eines Bild-Text-Compositors, also der Integration multimodaler Eingaben, um eine Darstellung zu erzeugen, die der des Zielbildes ähnelt. In unserem Algorithmus, Content-Style Modulation (CoSMo), nähern wir diese Herausforderung durch die Einführung zweier Module basierend auf tiefen neuronalen Netzen an: den Content- und Style-Modulatoren. Der Content-Modulator führt lokale Aktualisierungen der Merkmale des Referenzbildes durch, nachdem der Stil des Bildes normalisiert wurde; hierbei wird ein entkoppeltes, multimodales nicht-lokales Block-Element eingesetzt, um die gewünschten Inhaltssveränderungen zu erreichen. Anschließend reintegriert der Style-Modulator globale Stilinformationen in die aktualisierten Merkmale. Wir geben einen detaillierten Einblick in unseren Algorithmus und dessen Gestaltungsentscheidungen und zeigen, dass er herausragende Leistung auf mehreren Bild-Text-Retrieval-Benchmarks erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/postBG/CosMo.pytorch

Benchmarks

BenchmarkMethodikMetriken
image-retrieval-on-fashion-iqCoSMo
(Recall@10+Recall@50)/2: 39.45

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback | Forschungsarbeiten | HyperAI