Videodatensatz Des Open Sora Dataset-Projekts
Datum
Veröffentlichungs-URL
Kategorien

Open-Sora-Plan ist ein Open-Source-Projekt, das darauf abzielt, Sora (T2V-Modell) von OpenAI zu reproduzieren und Wissen über Video-VQVAE (VideoGPT) + DiT aufzubauen. Das Projekt wurde gemeinsam von der Peking-Universität und Tuzhan Intelligent Technology Co., Ltd. initiiert und die Forschung hat die Qualität der Videogenerierung und die Fähigkeit zur Textsteuerung erheblich verbessert. Das Modell kann 10 Sekunden lange HD-Videos mit 24 Bildern pro Sekunde und einer Auflösung von 1024 x 1024 erstellen und unterstützt außerdem die Erstellung hochauflösender Bilder, wodurch den Benutzern ein reichhaltigeres und detaillierteres visuelles Erlebnis geboten wird.
Dieser Datensatz ist ein Videodatensatz für sein Projekt. Das Forschungsteam hat 40.258 Videos von Open-Source-Websites unter der CC0-Lizenz gecrawlt. Alle Videos sind in hoher Qualität und ohne Wasserzeichen, davon sind etwa 60% Landschaftsdaten. Die Gesamtdauer beträgt ca. 274 Std. 05 Min. 13 Sek. .
Die wichtigsten Datenquellen sind in drei Teile gegliedert:
- Mixkit:Die Gesamtzahl der vom Forschungsteam gesammelten Videos beträgt 1.234, die Gesamtdauer beträgt ca. 6 Std. 19 Min. 32 Sek., die Gesamtzahl der Frames beträgt 570,815 .
- Pexels: Die Gesamtzahl der vom Forschungsteam gesammelten Videos beträgt 7.408,Die Gesamtdauer beträgt ca. 48 Stunden 49 Minuten 24 Sekunden, die Gesamtzahl der Frames beträgt 5,038,641 .
- Pixabay: Die Gesamtzahl der vom Forschungsteam gesammelten Videos beträgt 31.616,Die Gesamtdauer beträgt ca. 218 Std. 56 Min. 17 Sek., die Gesamtzahl der Frames beträgt 23,508,970 .