التاريخ

منذ 4 أعوام

الحجم

7.88 GB

المؤسسة

عنوان URL للنشر

antoyang.github.io

رابط الورقة البحثية

arxiv.org

الترخيص

Other

الوسوم

فهم الفيديو

الإجابة على الأسئلة البصرية

فهم الصور

تمثيل متعدد الوسائط

VQA تعني الإجابة المرئية على الأسئلة. HowToVQA69M عبارة عن مجموعة بيانات للإجابة على أسئلة الفيديو تحتوي على 69,270,581 سؤالاً وإجابة. حجمها ضعف حجم مجموعة بيانات الإجابة على أسئلة الفيديو الموجودة VideoQA. في المتوسط، ينتج كل فيديو خام 43 مقطع فيديو، مدة كل منها 12.1 ثانية ومرتبطة بـ 1.2 سؤال وإجابة، حيث تحتوي الأسئلة على 8.7 كلمة والإجابات تحتوي على 2.4 كلمة. تُعد مجموعة بيانات HowToVQA69M شديدة التنوع، حيث تحتوي على أكثر من 16 مليون إجابة فريدة، منها أكثر من 2 مليون إجابة فريدة تظهر أكثر من مرة وأكثر من 300000 إجابة فريدة تظهر أكثر من 10 مرات.

HowToVQA69M.torrent

البذر 2جارٍ التنزيل 0مكتمل 686إجمالي التنزيلات 635

HowToVQA69M/
- README.md
  1.23 KB
- README.txt
  2.47 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار