مجموعة بيانات الفيديو والنص الإنجليزي Vript
التاريخ
رابط النشر
العلامات

Vript عبارة عن مجموعة بيانات نصية فيديو دقيقة تحتوي على مقاطع فيديو عالية الدقة، والتي تحتوي على 12 ألف مقطع فيديو مُعلق مع أكثر من 420 ألف مقطع في المجموع. يأتي كل مقطع في مجموعة بيانات Vript مصحوبًا بتعليق توضيحي يبلغ حوالي 145 كلمة، وهو أطول بكثير من التعليقات التوضيحية في معظم مجموعات بيانات الفيديو النصية، مما يوفر وصفًا أكثر تفصيلاً وكثافة. إن التعليقات التوضيحية لهذه المجموعة من البيانات مستوحاة من نصوص الفيديو، وهي تشبه النصوص المكتوبة قبل إنشاء مقطع فيديو لتنظيم كيفية تصوير مشهد ما.
على عكس مجموعات بيانات الفيديو والنص السابقة، لا يسجل Vript محتوى الفيديو فحسب، بل يتضمن أيضًا نوع اللقطة (مثل اللقطة المتوسطة، أو اللقطة القريبة، وما إلى ذلك) وحركة الكاميرا (مثل التحريك والإمالة، وما إلى ذلك)، وبالتالي تعزيز ثراء ترجمات الفيديو. بالإضافة إلى ذلك، يقوم Vript بنسخ السرد إلى نص، والذي يتم توفيره مع عنوان الفيديو لتوفير المزيد من السياق لشرح الفيديو.
تم إصدار مجموعة البيانات هذه من قبل جامعة شنغهاي جياو تونغ وجامعة بيهانغ وفريق شياوهونغشو في عام 2024. نتائج الورقة ذات الصلة هي "Vript: مقطع فيديو يساوي آلاف الكلمات"