HyperAIHyperAI
vor 17 Tagen

TextDiffuser-2: Die Kraft von Sprachmodellen für die Textdarstellung entfesseln

Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
TextDiffuser-2: Die Kraft von Sprachmodellen für die Textdarstellung entfesseln
Abstract

In den letzten Jahren hat sich das Diffusionsmodell als leistungsfähiges generatives Modell erwiesen, bleibt jedoch bei der Generierung visueller Textinhalte eine Herausforderung. Mehrere Ansätze haben dieses Problem durch die Integration expliziter Textposition und -inhaltsinformationen als Leitfaden für Ort und Inhalt des zu rendernden Textes gemildert. Dennoch leiden diese Methoden weiterhin unter mehreren Nachteilen, wie begrenzter Flexibilität und Automatisierung, eingeschränkter Fähigkeit zur Layoutvorhersage sowie geringer Stilvielfalt. In diesem Artikel stellen wir TextDiffuser-2 vor, das darauf abzielt, das Potenzial von Sprachmodellen für die Textrenderung voll auszuschöpfen. Zunächst fine-tunen wir ein großes Sprachmodell für die Layoutplanung. Dieses Modell ist in der Lage, automatisch Schlüsselwörter für die Textrenderung zu generieren und unterstützt zudem die Anpassung des Layouts durch interaktives Chatten. Zweitens nutzen wir das Sprachmodell innerhalb des Diffusionsmodells, um Position und Text auf Zeilenebene zu kodieren. Im Gegensatz zu früheren Ansätzen, die enge Zeichen-Ebene-Guidance verwendeten, erzeugt dieser Ansatz vielfältigere Textbilder. Wir führen umfangreiche Experimente durch und integrieren Nutzerstudien mit menschlichen Teilnehmern sowie GPT-4V, um die Fähigkeit von TextDiffuser-2 zu validieren, rationalere Textlayout- und Generierungsergebnisse mit erhöhter Vielfalt zu erzielen. Der Code und das Modell werden unter \url{https://aka.ms/textdiffuser-2} verfügbar sein.

TextDiffuser-2: Die Kraft von Sprachmodellen für die Textdarstellung entfesseln | Neueste Forschungsarbeiten | HyperAI