Semantische Objektgenauigkeit für generative Text-zu-Bild-Synthese

Generative adversariale Netzwerke, die auf textuellen Bildbeschreibungen konditioniert sind, sind in der Lage, realistisch aussehende Bilder zu erzeugen. Dennoch haben aktuelle Methoden weiterhin Schwierigkeiten, Bilder auf der Grundlage komplexer Bildunterschriften aus heterogenen Domänen zu generieren. Zudem ist die quantitative Bewertung solcher Text-zu-Bild-Modelle herausfordernd, da die meisten Evaluationsmetriken lediglich die Bildqualität beurteilen, nicht jedoch die Übereinstimmung zwischen dem Bild und seiner Beschreibung. Um diese Herausforderungen anzugehen, stellen wir ein neues Modell vor, das explizit einzelne Objekte innerhalb eines Bildes modelliert, sowie eine neue Evaluationsmetrik namens Semantic Object Accuracy (SOA), die speziell die Übereinstimmung zwischen einem generierten Bild und seiner Bildunterschrift bewertet. Die SOA nutzt einen vortrainierten Objektdetektor, um zu prüfen, ob ein generiertes Bild Objekte enthält, die in der Bildunterschrift erwähnt sind, beispielsweise ob ein Bild, das aus der Beschreibung „ein Auto fährt die Straße entlang“ generiert wurde, tatsächlich ein Auto enthält. Wir führen eine Nutzerstudie durch, in der mehrere Text-zu-Bild-Modelle miteinander verglichen werden, und zeigen, dass unsere SOA-Metrik die Modelle genau so einstuft wie menschliche Beurteiler – im Gegensatz zu anderen Metriken wie dem Inception Score. Unsere Evaluation ergibt zudem, dass Modelle, die explizit Objekte modellieren, die Leistung von Modellen übertrifft, die lediglich globale Bildmerkmale erfassen.