InternVid-Full Ensemble De Données Vidéo-texte À Grande Échelle De Haute Qualité
Date
Taille
URL de publication

Cet ensemble de données est un ensemble de données vidéo-texte à grande échelle et de haute qualité, publié conjointement par le Laboratoire d'intelligence artificielle de Shanghai (Shanghai AI Lab), l'Université de Nanjing, l'Académie chinoise des sciences et d'autres institutions en 2024. Il vise à répondre à la demande croissante de modélisation du langage vidéo et à promouvoir une amélioration supplémentaire des capacités de compréhension et de génération de vidéos à grande échelle.
En tant que l'un des plus grands ensembles de données vidéo-texte publiques au monde,InternVid contient plus de 7 millions de vidéos avec des descriptions textuelles détaillées, couvrant 16 scènes et environ 6 000 descriptions d'actions, pour une durée totale de près de 760 000 heures.Et a une correspondance vidéo-texte élevée, l'ensemble de donnéesLa vidéo et la description du texte correspondent parfaitement, fournissant un « dictionnaire vidéo » pour la formation de tâches d'apprentissage multimodales telles que la correspondance sémantique vidéo-texte, la récupération vidéo-texte et la génération vidéo-texte.
InternVid a reçu une large attention dans la communauté universitaire, a été appliqué au modèle mondial multimodal LWM et a été utilisé ou référencé par Google et Stable AI dans les travaux de génération vidéo. L'article connexe a remporté le Spotlight lors de la Conférence internationale 2024 sur l'apprentissage de la représentation (ICLR 2024).