التاريخ

منذ 4 أعوام

المؤسسة

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

الترخيص

Other

الوسوم

Video Captioning

فهم الفيديو

ViTT تعني علامات الجدول الزمني للفيديو، والتي تتكون من 8169 مقطع فيديو مع تعليقات توضيحية على مستوى المقطع تم إنشاؤها يدويًا. ومن بين هذه الفيديوهات، تم التعليق على 5840 فيديو مرة واحدة، وتم التعليق على الباقي مرتين أو أكثر. تم إصدار ما مجموعه 12,461 مجموعة من التعليقات التوضيحية لهذه المجموعة من البيانات. الفيديوهات الموجودة في هذه المجموعة من البيانات مأخوذة من مجموعة بيانات Youtube-8M.

الاستشهاد

@inproceedings{huang2020multimodal, العنوان: {التدريب المسبق متعدد الوسائط لترجمة الفيديوهات الكثيفة} المؤلف={هوانغ، غابرييل وبانغ، بو وتشو، تشنهاي وريفيرا، كلارا وسوريكوت، رادو}، عنوان الكتاب = {AACL-IJCNLP 2020}، السنة={2020} }

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار