مجموعة بيانات الإجابة على أسئلة فهم الفيديو الطويل CinePile
التاريخ
الحجم
رابط النشر
العلامات

غالبًا ما تفشل مجموعات البيانات الحالية لفهم مقاطع الفيديو الطويلة في توفير تحدي حقيقي لفهم مقاطع الفيديو الطويلة، حيث يمكن حل العديد من المهام المستمدة من هذه المجموعات بنجاح عن طريق تحليل إطار واحد أو بضعة إطارات عشوائية في مقطع فيديو. لحل هذه المشكلة،واقترح فريق البحث مجموعة بيانات ومعيارًا جديدًا، CinePile، مصممًا لفهم مقاطع الفيديو الطويلة في العالم الحقيقي.
استخدم فريق البحث تقنيات متقدمة في مجال القانون والتفاعل بين الإنسان والحاسوب، وبنى على بيانات أصلية تم إنشاؤها بواسطة الإنسان. تحتوي مجموعة البيانات الشاملة على 305000 سؤال اختيار من متعدد (MCQs) تغطي جوانب بصرية ومتعددة الوسائط مختلفة، بما في ذلك الفهم الزمني، وفهم التفاعلات بين الإنسان والأشياء، والتفكير في الأحداث أو الإجراءات داخل المشهد. بالإضافة إلى ذلك، يتم تقييم برامج الماجستير في القانون الحديثة التي تركز على الفيديو، سواء كانت مفتوحة المصدر أو خاصة، في جزء الاختبار من مجموعة البيانات. تظهر نتائجنا أن حتى برامج ماجستير القانون التي تركز على الفيديو المتطورة تؤدي أداءً أسوأ بكثير من البشر في هذه المهام، مما يسلط الضوء على التعقيد والتحديات الكامنة في فهم الفيديو.