مجموعة بيانات تقييم نموذج مكافآت الفيديو VideoRewardBench
يُعدّ VideoRewardBench، الذي طُوّر بالاشتراك بين جامعة العلوم والتكنولوجيا الصينية ومختبر هواوي نوح آرك، أول معيار تقييم شامل في عام 2025 يُغطي بشكل كامل أربعة أبعاد أساسية لفهم الفيديو: الإدراك، والمعرفة، والاستدلال، والأمان. وتشمل الأبحاث ذات الصلة... VideoRewardBench: تقييم شامل لنماذج المكافآت متعددة الوسائط لفهم الفيديوالهدف هو تقييم قدرة النموذج بشكل منهجي على إصدار أحكام تفضيلية وتقييم جودة النتائج المولدة في سيناريوهات فهم الفيديو المعقدة.
تحتوي مجموعة البيانات على 1563 عينة مصنفة، تتضمن 1482 مقطع فيديو مختلفًا و1559 سؤالًا مختلفًا. تتكون كل عينة من نص فيديو، وإجابة مفضلة، وإجابة مرفوضة.
توزيع مجموعة البيانات:
تغطي مجموعة البيانات، الموزعة حسب بُعد المهمة، خمسة أبعاد تقييم أساسية، والتوزيع العام متوازن نسبياً.
- الإدراك المطول: 283 مجموعة (18.1%)
- الإدراك المختصر: 413 مجموعة (26.4%)
- المعرفة: 238 مجموعة (15.2%)
- الاستدلال: 278 مجموعة (17.8%)
- السلامة: 351 مجموعة (22.5%)
بناءً على توزيع مدة الفيديو، تسود مقاطع الفيديو القصيرة:
- ≤ دقيقة واحدة: 59.9%
- 1-5 دقائق: 33.21 TP3T
- أكثر من 5 دقائق: 6.9%
إحصائيات نصية
- متوسط طول السؤال: 28.8 كلمة
- متوسط طول الإجابة: 103.8 كلمة
- متوسط طول الردود المفضلة/المرفوضة: 102.9 / 104.6 كلمة
يشير التوزيع المماثل لأطوال الإجابات المفضلة والمرفوضة إلى أن تصنيف التفضيل يتم تحديده في المقام الأول من خلال جودة الإجابة وليس من خلال اختلافات طول النص.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.