HyperAIHyperAI

مجموعة بيانات فهم نص الفيديو LSVTD

التاريخ

منذ 3 أعوام

المؤسسة

جامعة تشجيانغ

رابط النشر

davar-lab.github.io

رابط الورقة البحثية

arxiv.org

الترخيص

其他

مساعدة التنزيل
特色图像

LSVTD تعني مجموعة بيانات نصية فيديو واسعة النطاق، والتي تحتوي على 100 مقطع فيديو من 21 مشهدًا طبيعيًا. تغطي مجموعة البيانات نطاقًا واسعًا من 13 مشهدًا داخليًا (مثل المكتبات ومراكز التسوق) و9 مشاهد خارجية، وتنوعها أكبر من ثلاثة أضعاف تنوع مجموعة بيانات IC15.