HyperAI

مجموعة بيانات فهم نص الفيديو LSVTD

التاريخ

منذ 3 أعوام

المؤسسة

جامعة تشجيانغ

رابط النشر

davar-lab.github.io

الترخيص

其他

مساعدة التنزيل
特色图像

LSVTD تعني مجموعة بيانات نصية فيديو واسعة النطاق، والتي تحتوي على 100 مقطع فيديو من 21 مشهدًا طبيعيًا. تغطي مجموعة البيانات نطاقًا واسعًا من 13 مشهدًا داخليًا (مثل المكتبات ومراكز التسوق) و9 مشاهد خارجية، وتنوعها أكبر من ثلاثة أضعاف تنوع مجموعة بيانات IC15.