HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الفيديو والنص الإنجليزي Vript

ناقش على Discord

التاريخ

منذ 2 أعوام

المؤسسة

جامعة شنغهاي جياو تونغ
جامعة بكين للملاحة الجوية والفضائية

رابط الورقة البحثية

arxiv.org

Featured Image

Vript عبارة عن مجموعة بيانات نصية فيديو دقيقة تحتوي على مقاطع فيديو عالية الدقة، والتي تحتوي على 12 ألف مقطع فيديو مُعلق مع أكثر من 420 ألف مقطع في المجموع. يأتي كل مقطع في مجموعة بيانات Vript مصحوبًا بتعليق توضيحي يبلغ حوالي 145 كلمة، وهو أطول بكثير من التعليقات التوضيحية في معظم مجموعات بيانات الفيديو النصية، مما يوفر وصفًا أكثر تفصيلاً وكثافة. إن التعليقات التوضيحية لهذه المجموعة من البيانات مستوحاة من نصوص الفيديو، وهي تشبه النصوص المكتوبة قبل إنشاء مقطع فيديو لتنظيم كيفية تصوير مشهد ما.

على عكس مجموعات بيانات الفيديو والنص السابقة، لا يسجل Vript محتوى الفيديو فحسب، بل يتضمن أيضًا نوع اللقطة (مثل اللقطة المتوسطة، أو اللقطة القريبة، وما إلى ذلك) وحركة الكاميرا (مثل التحريك والإمالة، وما إلى ذلك)، وبالتالي تعزيز ثراء ترجمات الفيديو. بالإضافة إلى ذلك، يقوم Vript بنسخ السرد إلى نص، والذي يتم توفيره مع عنوان الفيديو لتوفير المزيد من السياق لشرح الفيديو.

تم إصدار مجموعة البيانات هذه من قبل جامعة شنغهاي جياو تونغ وجامعة بيهانغ وفريق شياوهونغشو في عام 2024. نتائج الورقة ذات الصلة هي "Vript: مقطع فيديو يساوي آلاف الكلمات"

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp