CoSMo: Content-Style Modulation für die Bildretrieval mit Textfeedback

Wir behandeln die Aufgabe der Bildretrieval mit Textfeedback, bei der ein Referenzbild und modifizierender Text kombiniert werden, um das gewünschte Zielbild zu identifizieren. Unser Fokus liegt auf der Gestaltung eines Bild-Text-Compositors, also der Integration multimodaler Eingaben, um eine Darstellung zu erzeugen, die der des Zielbildes ähnelt. In unserem Algorithmus, Content-Style Modulation (CoSMo), nähern wir diese Herausforderung durch die Einführung zweier Module basierend auf tiefen neuronalen Netzen an: den Content- und Style-Modulatoren. Der Content-Modulator führt lokale Aktualisierungen der Merkmale des Referenzbildes durch, nachdem der Stil des Bildes normalisiert wurde; hierbei wird ein entkoppeltes, multimodales nicht-lokales Block-Element eingesetzt, um die gewünschten Inhaltssveränderungen zu erreichen. Anschließend reintegriert der Style-Modulator globale Stilinformationen in die aktualisierten Merkmale. Wir geben einen detaillierten Einblick in unseren Algorithmus und dessen Gestaltungsentscheidungen und zeigen, dass er herausragende Leistung auf mehreren Bild-Text-Retrieval-Benchmarks erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/postBG/CosMo.pytorch