HyperAIHyperAI
vor 2 Monaten

Tell, Draw, and Repeat: Generierung und Modifikation von Bildern auf der Grundlage kontinuierlicher sprachlicher Anweisungen

Alaaeldin El-Nouby; Shikhar Sharma; Hannes Schulz; Devon Hjelm; Layla El Asri; Samira Ebrahimi Kahou; Yoshua Bengio; Graham W.Taylor
Tell, Draw, and Repeat: Generierung und Modifikation von Bildern auf der Grundlage kontinuierlicher sprachlicher Anweisungen
Abstract

Bedingte Text-zu-Bild-Generierung ist ein aktives Forschungsfeld mit zahlreichen möglichen Anwendungen. Die bisherige Forschung hat sich hauptsächlich auf die Erstellung eines einzelnen Bildes aus verfügbaren bedingenden Informationen in einem Schritt konzentriert. Eine praktische Erweiterung jenseits der Einzelschrittgenerierung ist ein System, das iterativ ein Bild erstellt, wobei es sich auf fortlaufende linguistische Eingaben oder Rückmeldungen stützt. Dies ist erheblich anspruchsvoller als Einzelschrittgenerierungsaufgaben, da ein solches System den Inhalt seiner generierten Bilder im Bezug zur Rückmeldehistorie, der aktuellen Rückmeldung und den Interaktionen zwischen den in der Rückmeldehistorie vorhandenen Konzepten verstehen muss. In dieser Arbeit präsentieren wir ein rekurrentes Bildgenerierungsmodell, das sowohl die bis zum aktuellen Schritt generierte Ausgabe als auch alle früheren Generierungsanweisungen berücksichtigt. Wir zeigen, dass unser Modell in der Lage ist, den Hintergrund zu generieren, neue Objekte hinzuzufügen und einfache Transformationen an bestehenden Objekten durchzuführen. Wir glauben, dass unser Ansatz einen wichtigen Schritt in Richtung interaktiver Generierung darstellt. Der Quellcode und die Daten sind unter folgender URL verfügbar: https://www.microsoft.com/de-de/research/projekt/generative-neural-visual-artist-geneva/ .