HyperAI

VidProM Großer Datensatz Für Text-zu-Video-Eingabeaufforderungen

Datum

vor einem Jahr

Organisation

Zhejiang-Universität

Veröffentlichungs-URL

huggingface.co

Download-Hilfe
特色图像

Der VidProM-Datensatz ist der erste groß angelegte Datensatz zur Text-zu-Video-Eingabeaufforderung für echte Benutzer, der gemeinsam von der University of Technology Sydney und der Zhejiang University entwickelt wurde. Es enthält 1,67 Millionen einzigartige Text-zu-Video-Aufforderungen und 6,69 Millionen Videos, die von vier hochmodernen Diffusionsmodellen generiert wurden.

Der Datensatz bietet nicht nur eine große Menge an Videoinhalten, sondern enthält auch die mit jeder Eingabeaufforderung verbundene NSFW-Wahrscheinlichkeit (Not Safe For Work), 3072-dimensionale Eingabeaufforderungseinbettungen und zusätzliche zugehörige Metadaten. Der Erstellungsprozess umfasst das Sammeln von HTML-Quelldateien, das Extrahieren und Einbetten von Texthinweisen, das Zuweisen von NSFW-Wahrscheinlichkeiten zu diesen Hinweisen, das Crawlen und Generieren von Videos und schließlich das Herausfiltern semantisch eindeutiger Hinweise.

Die Veröffentlichung von VidProM zielt darauf ab, die Forschung im Bereich der Text-zu-Video-Generierung zu fördern und Aspekte wie Modellbewertung, effiziente Videogenerierung, Erkennung gefälschter Videos und Erkennung von Video-Urheberrechten abzudecken. Forschern werden dadurch wertvolle Ressourcen zur Erforschung und Entwicklung neuer Techniken zur Text-zu-Video-Generierung bereitgestellt.