Openstory++ Bildinstanz-Datensatz Im Großen Maßstab
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
Der Openstory++-Datensatz wurde 2024 gemeinsam von der South China University of Technology, der Westlake University, dem OPPO US Research Center und der King Abdullah University of Science and Technology entwickelt.
Openstory++ wurde entwickelt, um das Problem zu lösen, dass vorhandene Modelle zur Bildgenerierung Schwierigkeiten haben, die Instanzkonsistenz in langen Textkontexten aufrechtzuerhalten. Es kombiniert Anmerkungen auf Instanzebene zu Bildern und Texten und stellt so eine umfangreiche Ressource bereit, die es ermöglicht, Bilder mit hoher Konsistenz im Kontext langer Texte zu generieren. Die Entwicklung dieses Datensatzes basiert auf einem tiefen Verständnis der mangelnden Konsistenz bestehender Bildgenerierungsmodelle im Umgang mit komplexen Erzählungen. Durch die automatische Keyframe-Extraktion, die Untertitelgenerierung mithilfe visueller Sprachmodelle und die Verbesserung der narrativen Kohärenz mithilfe großer Sprachmodelle wird eine umfangreiche Ressourcenbibliothek erstellt, um komplexe Aufgaben der narrativen Generierung zu unterstützen.
