HyperAI

Vript Englischer Videotext-Datensatz

Datum

vor 10 Monaten

Organisation

Shanghai Jiao Tong Universität
Universität für Luft- und Raumfahrt Peking

Veröffentlichungs-URL

huggingface.co

Download-Hilfe
特色图像

Vript ist ein feinkörniger Videotext-Datensatz mit hochauflösenden Videos, der 12.000 kommentierte Videos mit insgesamt mehr als 420.000 Clips enthält. Jeder Clip im Vript-Datensatz wird von einer Bildunterschrift von etwa 145 Wörtern begleitet, die viel länger ist als die Anmerkungen in den meisten Videotext-Datensätzen und eine detailliertere und ausführlichere Beschreibung bietet. Die Anmerkungen zu diesem Datensatz sind von Videoskripten inspiriert, ähnlich den Skripten, die vor der Erstellung eines Videos geschrieben werden, um die Aufnahme einer Szene zu organisieren.

Anders als frühere Videotext-Datensätze zeichnet Vript nicht nur den Videoinhalt auf, sondern berücksichtigt auch die Aufnahmeart (z. B. Halbtotale, Nahaufnahme usw.) und die Kamerabewegung (z. B. Schwenken, Neigen usw.) und verbessert so die Reichhaltigkeit der Videountertitel. Darüber hinaus transkribiert Vript den Kommentar in Text, der zusammen mit dem Videotitel bereitgestellt wird, um mehr Kontext für die Videoanmerkungen bereitzustellen.

Dieser Datensatz wurde 2024 von der Shanghai Jiao Tong University, der Beihang University und dem Xiaohongshu-Team veröffentlicht. Die zugehörigen Ergebnisse der Studie lauten:Vript: Ein Video sagt mehr als tausend Worte"