vor 6 Monaten

Zusammenfassung

Wir behandeln die Aufgabe der Bildretrieval mit Textfeedback, bei der ein Referenzbild und modifizierender Text kombiniert werden, um das gewünschte Zielbild zu identifizieren. Unser Fokus liegt auf der Gestaltung eines Bild-Text-Compositors, also der Integration multimodaler Eingaben, um eine Darstellung zu erzeugen, die der des Zielbildes ähnelt. In unserem Algorithmus, Content-Style Modulation (CoSMo), nähern wir diese Herausforderung durch die Einführung zweier Module basierend auf tiefen neuronalen Netzen an: den Content- und Style-Modulatoren. Der Content-Modulator führt lokale Aktualisierungen der Merkmale des Referenzbildes durch, nachdem der Stil des Bildes normalisiert wurde; hierbei wird ein entkoppeltes, multimodales nicht-lokales Block-Element eingesetzt, um die gewünschten Inhaltssveränderungen zu erreichen. Anschließend reintegriert der Style-Modulator globale Stilinformationen in die aktualisierten Merkmale. Wir geben einen detaillierten Einblick in unseren Algorithmus und dessen Gestaltungsentscheidungen und zeigen, dass er herausragende Leistung auf mehreren Bild-Text-Retrieval-Benchmarks erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/postBG/CosMo.pytorch

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Text-zu-Bild

Multimodal

Aufgabe

Bohyung Han Dongwan Kim Seungmin Lee

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Text-zu-Bild

Multimodal

Aufgabe

Bohyung Han Dongwan Kim Seungmin Lee

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback | Paper | HyperAI

Command Palette

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

Bohyung Han Dongwan Kim Seungmin Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

Bohyung Han Dongwan Kim Seungmin Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

Bohyung Han Dongwan Kim Seungmin Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters