Command Palette
Search for a command to run...
مجموعة بيانات تقييم توليد الوصلات السمعية والبصرية من Verse-Bench
التاريخ
الحجم
رابط الورقة البحثية
الترخيص
Apache 2.0
Verse-Bench هي مجموعة بيانات مرجعية لتقييم التوليد المشترك للصوت والفيديو، أصدرتها شركة StepFun عام ٢٠٢٥ بالتعاون مع جامعة هونغ كونغ للعلوم والتكنولوجيا (قوانغتشو) ومؤسسات أخرى. نتائج البحث ذات الصلة هي:UniVerse-1: توليد الصوت والفيديو الموحد من خلال خياطة الخبراء"، والذي يهدف إلى دفع النماذج التوليدية ليس فقط لتوليد مقاطع الفيديو، ولكن أيضًا للحفاظ على المحاذاة الزمنية الصارمة مع المحتوى الصوتي (بما في ذلك الأصوات المحيطة والكلام).
تحتوي مجموعة البيانات على 600 زوج من الصور والنصوص، تم الحصول عليها من YouTube وBilibili وإطارات الفيديو TikTok ولقطات الشاشة للأفلام/الأنمي والصور التي تم إنشاؤها بواسطة نموذج الذكاء الاصطناعي وصور الويب العامة.
توزيع البيانات
تُقسّم مجموعة البيانات إلى ثلاث مجموعات فرعية (المجموعة ١-١، المجموعة ٢-٥، والمجموعة ٣-تيد)، تغطي مجموعة متنوعة من فئات الصوت، مثل الأصوات البشرية، وأصوات الحيوانات، والموسيقى الآلية، والأصوات الطبيعية، وأصوات تفاعل الإنسان مع الأشياء، وتأثيرات الأشياء، والضوضاء الميكانيكية، على التوالي، وهي مناسبة لمختلف السيناريوهات وأنواع المحتوى. التوزيع الدقيق كالتالي:
- تحتوي المجموعة 1-I على 205 أزواج من الصور والنصوص، بما في ذلك الصور المُولّدة بالذكاء الاصطناعي، واستخراج بيانات الويب، ولقطات شاشة الوسائط. تُستخدم كل صورة كمدخل بصري، ويتم توليد التعليقات التوضيحية للفيديو/الصوت ومحتوى الكلام المقابل بواسطة نموذج لغوي كبير (LLM) وتعليقات توضيحية بشرية.
- تحتوي المجموعة 2-V على 295 عينة من مقاطع الفيديو القصيرة من YouTube وBiliBili، والتي تأتي مصحوبة بترجمات تم إنشاؤها بواسطة LLM ونصوص منقولة باستخدام Whisper للتعرف التلقائي على الكلام (ASR) وتم التحقق منها يدويًا.
- يحتوي Set3-Ted على 100 عينة من مقاطع فيديو محادثات TED من سبتمبر 2025، باستخدام نفس عملية التوضيح مثل Set2.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.