HyperAIHyperAI
منذ 11 أيام

التحديد الزمني المتعدد اللقطات للحدث: معيار تقييم

Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai, Philip H.S. Torr
التحديد الزمني المتعدد اللقطات للحدث: معيار تقييم
الملخص

تُركّز التطوّرات الحالية في مجال تحديد الأحداث أو الإجراءات الزمنية عادةً على الإجراءات التي تمّ التقاطها بواسطة كاميرا واحدة. ومع ذلك، قد تُسجّل الأحداث أو الإجراءات الواسعة النطاق في البيئة الطبيعية كسلسلة من اللقطات بواسطة كاميرات متعددة في مواقع مختلفة. في هذا البحث، نُقدّم مهمة جديدة وصعبة تُسمّى "تحديد الأحداث الزمنية متعددة اللقطات"، ونتبع ذلك بجمع مجموعة بيانات كبيرة تُسمّى MUlti-Shot EventS (MUSES). تضمّ مجموعة MUSES 31,477 حالة حدث لفترة إجمالية قدرها 716 ساعة فيديو. وتكمن الطبيعة الأساسية لمجموعة MUSES في التقطيعات المتكررة بين اللقطات، حيث يبلغ متوسط عدد اللقطات لكل حالة 19 لقطة، و176 لقطة لكل فيديو، ما يؤدي إلى تباين كبير داخل كل حالة. تُظهر تقييماتنا الشاملة أن أحدث الطرق في مجال تحديد الإجراءات الزمنية تحقق فقط متوسط دقة مُتوسّط (mAP) قدره 13.1% عند مستوى التداخل بين المربعات (IoU) = 0.5. كمساهمة ثانوية، نقدّم نموذجًا أساسيًا بسيطًا للتعامل مع التباينات داخل الحالة، والذي حقق متوسط دقة مُتوسّط (mAP) قدره 18.9% على مجموعة MUSES و56.9% على مجموعة THUMOS14 عند IoU = 0.5. ولتسهيل الأبحاث في هذا المجال، نُطلق مجموعة البيانات والكود البرمجي الخاص بالمشروع عبر الرابط: https://songbai.site/muses/.

التحديد الزمني المتعدد اللقطات للحدث: معيار تقييم | أحدث الأوراق البحثية | HyperAI