HyperAI

Ensemble De Données Vidéo-texte En Anglais Vript

Date

il y a un an

Organisation

Université Jiao Tong de Shanghai
Université d'aéronautique et d'astronautique de Pékin

URL de publication

huggingface.co

Aide au téléchargement
特色图像

Vript est un ensemble de données vidéo-texte à granularité fine avec des vidéos haute résolution, qui contient 12 000 vidéos annotées avec plus de 420 000 clips au total. Chaque clip de l'ensemble de données Vript est accompagné d'une légende d'environ 145 mots, ce qui est beaucoup plus long que les annotations de la plupart des ensembles de données vidéo-texte, fournissant une description plus détaillée et plus dense. Les annotations de cet ensemble de données sont inspirées de scripts vidéo, similaires aux scripts écrits avant de réaliser une vidéo pour organiser la manière de filmer une scène.

Contrairement aux ensembles de données vidéo-texte précédents, Vript enregistre non seulement le contenu vidéo, mais inclut également le type de prise de vue (comme un plan moyen, un gros plan, etc.) et le mouvement de la caméra (comme un panoramique, une inclinaison, etc.), améliorant ainsi la richesse des sous-titres vidéo. De plus, Vript transcrit la narration en texte, qui est fourni avec le titre de la vidéo pour fournir plus de contexte à l'annotation vidéo.

Cet ensemble de données a été publié par l'Université Jiao Tong de Shanghai, l'Université Beihang et l'équipe Xiaohongshu en 2024. Les résultats de l'article associé sont "Vript : une vidéo vaut mille mots"