HyperAI

VidProM مجموعة بيانات واسعة النطاق لتحويل النص إلى فيديو

التاريخ

منذ عام واحد

المؤسسة

جامعة تشجيانغ

رابط النشر

huggingface.co

مساعدة التنزيل
特色图像

مجموعة بيانات VidProM هي أول مجموعة بيانات واسعة النطاق لتحويل النص إلى فيديو للمستخدم الحقيقي، تم تطويرها بشكل مشترك من قبل جامعة سيدني للتكنولوجيا وجامعة تشجيانغ. ويحتوي على 1.67 مليون رسالة نصية فريدة لتحويل الفيديو إلى نص، و6.69 مليون مقطع فيديو تم إنشاؤها بواسطة أربعة نماذج انتشار متطورة.

لا توفر مجموعة البيانات كمية كبيرة من محتوى الفيديو فحسب، بل تتضمن أيضًا احتمالية NSFW (غير آمنة للعمل) المرتبطة بكل موجه، وتضمينات الموجه ذات الأبعاد 3072، والبيانات الوصفية الإضافية ذات الصلة. تتضمن عملية إنشائها جمع ملفات HTML المصدر، واستخراج الإشارات النصية وتضمينها، وتعيين احتمالات NSFW لها، والزحف إلى مقاطع الفيديو وتوليدها، وأخيرًا تصفية الإشارات الفريدة دلاليًا.

يهدف إصدار VidProM إلى تعزيز البحث في مجال إنشاء النص إلى الفيديو، وتغطية جوانب مثل تقييم النموذج، وإنشاء الفيديو بكفاءة، واكتشاف الفيديو المزيف، واكتشاف حقوق الطبع والنشر للفيديو، مما يوفر للباحثين موارد قيمة لاستكشاف وتطوير تقنيات جديدة لإنشاء النص إلى الفيديو.