GEB+: معيار لوصف حدود الأحداث العامة، وترسيخها واسترجاعها

أظهرت علوم الإدراك أن البشر يدركون الفيديوهات من حيث الأحداث التي تفصلها التغيرات في حالة المواضيع الرئيسية. تعمل التغيرات الحالة على تحفيز أحداث جديدة وهي من بين أكثر المعلومات المفيدة ضمن الكمية الكبيرة من المعلومات الزائدة التي يتم إدراكها. ومع ذلك، ركزت البحوث السابقة على الفهم الشامل للمقاطع دون تقييم التغيرات الدقيقة داخلها. في هذا البحث، نقدم مجموعة بيانات جديدة تسمى Kinetic-GEB+. تتكون هذه المجموعة من أكثر من 170 ألف حد فاصل مرتبط بتعليقات تصف التغيرات الحالة للأحداث العامة في 12 ألف فيديو. بناءً على هذه المجموعة البيانات الجديدة، نقترح ثلاث مهام تدعم تطوير فهم أكثر دقة ومتانة وأكثر شبهاً بالإنسان للفيديوهات عبر التغيرات الحالة. نقيم العديد من النماذج الأولية الممثلة في مجموعتنا البيانات، حيث صممنا أيضًا طريقة نموذجية جديدة تُعرف بالـ TPD (الاختلاف الزوجي القائم على الزمن) لموديل الاختلاف البصري وحققنا تحسينات أداء كبيرة. بالإضافة إلى ذلك، تظهر النتائج أن هناك ما زال تحديات ضخمة أمام الأساليب الحالية فيما يتعلق باستخدام مختلف المستويات الدقيقة، تمثيل الاختلاف البصري، والتحديد الدقيق للتغيرات الحالة. يُظهر التحليل الأعمق أن مجموعتنا البيانات يمكن أن تسهم في تطوير أساليب أكثر قوة لفهم التغيرات الحالة وبالتالي تحسين الفهم على مستوى الفيديو. يمكن الوصول إلى المجموعة البيانات التي تتضمن كلاً من الفيديوهات والحدود عند https://yuxuan-w.github.io/GEB-plus/