التاريخ

منذ 4 أعوام

المؤسسة

عنوان URL للنشر

davar-lab.github.io

رابط الورقة البحثية

arxiv.org

الترخيص

Other

الوسوم

فهم الفيديو

الإجابة على الأسئلة البصرية

فهم الصور

تمثيل متعدد الوسائط

LSVTD تعني مجموعة بيانات نصية فيديو واسعة النطاق، والتي تحتوي على 100 مقطع فيديو من 21 مشهدًا طبيعيًا. تغطي مجموعة البيانات نطاقًا واسعًا من 13 مشهدًا داخليًا (مثل المكتبات ومراكز التسوق) و9 مشاهد خارجية، وتنوعها أكبر من ثلاثة أضعاف تنوع مجموعة بيانات IC15.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار