HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الفيديو والنص الإنجليزي Vript

التاريخ

منذ عام واحد

المؤسسة

جامعة شنغهاي جياو تونغ
جامعة بكين للملاحة الجوية والفضائية

رابط الورقة البحثية

arxiv.org

انضم إلى مجتمع Discord
Featured Image

Vript عبارة عن مجموعة بيانات نصية فيديو دقيقة تحتوي على مقاطع فيديو عالية الدقة، والتي تحتوي على 12 ألف مقطع فيديو مُعلق مع أكثر من 420 ألف مقطع في المجموع. يأتي كل مقطع في مجموعة بيانات Vript مصحوبًا بتعليق توضيحي يبلغ حوالي 145 كلمة، وهو أطول بكثير من التعليقات التوضيحية في معظم مجموعات بيانات الفيديو النصية، مما يوفر وصفًا أكثر تفصيلاً وكثافة. إن التعليقات التوضيحية لهذه المجموعة من البيانات مستوحاة من نصوص الفيديو، وهي تشبه النصوص المكتوبة قبل إنشاء مقطع فيديو لتنظيم كيفية تصوير مشهد ما.

على عكس مجموعات بيانات الفيديو والنص السابقة، لا يسجل Vript محتوى الفيديو فحسب، بل يتضمن أيضًا نوع اللقطة (مثل اللقطة المتوسطة، أو اللقطة القريبة، وما إلى ذلك) وحركة الكاميرا (مثل التحريك والإمالة، وما إلى ذلك)، وبالتالي تعزيز ثراء ترجمات الفيديو. بالإضافة إلى ذلك، يقوم Vript بنسخ السرد إلى نص، والذي يتم توفيره مع عنوان الفيديو لتوفير المزيد من السياق لشرح الفيديو.

تم إصدار مجموعة البيانات هذه من قبل جامعة شنغهاي جياو تونغ وجامعة بيهانغ وفريق شياوهونغشو في عام 2024. نتائج الورقة ذات الصلة هي "Vript: مقطع فيديو يساوي آلاف الكلمات"

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp