HyperAIHyperAI

مجموعة بيانات معيارية للإجابة على أسئلة الفيديو الطويلة M3-Bench

التاريخ

منذ شهر واحد

المؤسسة

بذرة بايت دانس

رابط النشر

huggingface.co

رابط الورقة البحثية

2508.09736

الترخيص

非商业用途

مساعدة التنزيل

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

M3-Bench عبارة عن مجموعة بيانات مرجعية طويلة للإجابة على أسئلة الفيديو أصدرها فريق ByteDance Seed في عام 2025. نتائج الورقة ذات الصلة هي "الرؤية والاستماع والتذكر والاستدلال: وكيل متعدد الوسائط ذو ذاكرة طويلة المدى"، والذي يهدف إلى تقييم الذاكرة طويلة المدى والقدرة على التفكير لدى الوكلاء الأذكياء متعددي الوسائط.

تحتوي مجموعة البيانات على 1020 عينة فيديو، تتضمن كل منها تعليقات توضيحية، ومخرجات وسيطة، وخرائط ذاكرة. يعتمد M3-Bench على الإجابة على أسئلة مفتوحة (VQA) عبر مقاطع فيديو طويلة كمهمة أساسية، حيث يُرفق بكل فيديو مجموعة من الأسئلة المفتوحة.

تكوين البيانات:

  • روبوت M3-Bench-robot: 100 مقطع فيديو جديد من منظور الشخص الأول لسيناريوهات العالم الحقيقي (منظور الروبوت) سجلها فريق البحث
  • M3-Bench-web: 920 مقطع فيديو طويلًا من الإنترنت، تغطي نطاقًا أوسع من المحتوى والسيناريوهات

مجموعة بيانات معيارية للإجابة على أسئلة الفيديو الطويلة M3-Bench | مجموعات البيانات | HyperAI