مجموعة بيانات فهم نص الفيديو LSVTD
التاريخ
منذ 3 أعوام
رابط النشر
الترخيص
其他
الفئات

LSVTD تعني مجموعة بيانات نصية فيديو واسعة النطاق، والتي تحتوي على 100 مقطع فيديو من 21 مشهدًا طبيعيًا. تغطي مجموعة البيانات نطاقًا واسعًا من 13 مشهدًا داخليًا (مثل المكتبات ومراكز التسوق) و9 مشاهد خارجية، وتنوعها أكبر من ثلاثة أضعاف تنوع مجموعة بيانات IC15.