HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données Vidéo-texte En Anglais Vript

Rejoignez la communauté Discord
Featured Image

Vript est un ensemble de données vidéo-texte à granularité fine avec des vidéos haute résolution, qui contient 12 000 vidéos annotées avec plus de 420 000 clips au total. Chaque clip de l'ensemble de données Vript est accompagné d'une légende d'environ 145 mots, ce qui est beaucoup plus long que les annotations de la plupart des ensembles de données vidéo-texte, fournissant une description plus détaillée et plus dense. Les annotations de cet ensemble de données sont inspirées de scripts vidéo, similaires aux scripts écrits avant de réaliser une vidéo pour organiser la manière de filmer une scène.

Contrairement aux ensembles de données vidéo-texte précédents, Vript enregistre non seulement le contenu vidéo, mais inclut également le type de prise de vue (comme un plan moyen, un gros plan, etc.) et le mouvement de la caméra (comme un panoramique, une inclinaison, etc.), améliorant ainsi la richesse des sous-titres vidéo. De plus, Vript transcrit la narration en texte, qui est fourni avec le titre de la vidéo pour fournir plus de contexte à l'annotation vidéo.

Cet ensemble de données a été publié par l'Université Jiao Tong de Shanghai, l'Université Beihang et l'équipe Xiaohongshu en 2024. Les résultats de l'article associé sont "Vript : une vidéo vaut mille mots"

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données Vidéo-texte En Anglais Vript | Ensembles de données | HyperAI