HyperAI

مجموعة بيانات وصف الفيديو الكثيف ViTT

التاريخ

منذ 3 أعوام

المؤسسة

رابط النشر

github.com

الترخيص

其他

مساعدة التنزيل
特色图像

ViTT تعني علامات الجدول الزمني للفيديو، والتي تتكون من 8169 مقطع فيديو مع تعليقات توضيحية على مستوى المقطع تم إنشاؤها يدويًا. ومن بين هذه الفيديوهات، تم التعليق على 5840 فيديو مرة واحدة، وتم التعليق على الباقي مرتين أو أكثر. تم إصدار ما مجموعه 12,461 مجموعة من التعليقات التوضيحية لهذه المجموعة من البيانات. الفيديوهات الموجودة في هذه المجموعة من البيانات مأخوذة من مجموعة بيانات Youtube-8M.