HyperAIHyperAI

Command Palette

Search for a command to run...

التحديد الزمني المتعدد اللقطات للحدث: معيار تقييم

Xiaolong Liu Yao Hu Song Bai Fei Ding Xiang Bai Philip H.S. Torr

الملخص

تُركّز التطوّرات الحالية في مجال تحديد الأحداث أو الإجراءات الزمنية عادةً على الإجراءات التي تمّ التقاطها بواسطة كاميرا واحدة. ومع ذلك، قد تُسجّل الأحداث أو الإجراءات الواسعة النطاق في البيئة الطبيعية كسلسلة من اللقطات بواسطة كاميرات متعددة في مواقع مختلفة. في هذا البحث، نُقدّم مهمة جديدة وصعبة تُسمّى "تحديد الأحداث الزمنية متعددة اللقطات"، ونتبع ذلك بجمع مجموعة بيانات كبيرة تُسمّى MUlti-Shot EventS (MUSES). تضمّ مجموعة MUSES 31,477 حالة حدث لفترة إجمالية قدرها 716 ساعة فيديو. وتكمن الطبيعة الأساسية لمجموعة MUSES في التقطيعات المتكررة بين اللقطات، حيث يبلغ متوسط عدد اللقطات لكل حالة 19 لقطة، و176 لقطة لكل فيديو، ما يؤدي إلى تباين كبير داخل كل حالة. تُظهر تقييماتنا الشاملة أن أحدث الطرق في مجال تحديد الإجراءات الزمنية تحقق فقط متوسط دقة مُتوسّط (mAP) قدره 13.1% عند مستوى التداخل بين المربعات (IoU) = 0.5. كمساهمة ثانوية، نقدّم نموذجًا أساسيًا بسيطًا للتعامل مع التباينات داخل الحالة، والذي حقق متوسط دقة مُتوسّط (mAP) قدره 18.9% على مجموعة MUSES و56.9% على مجموعة THUMOS14 عند IoU = 0.5. ولتسهيل الأبحاث في هذا المجال، نُطلق مجموعة البيانات والكود البرمجي الخاص بالمشروع عبر الرابط: https://songbai.site/muses/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp