الملخص

تمثّل القدرة على التعرف التلقائي على العنف بين الأفراد أو الحشود في مقاطع الفيديو مجالًا يحظى باهتمام واسع. في هذا العمل، نقترح نموذجًا شبكيًا عصبيًا عميقًا يعتمد على منهجية النهاية إلى النهاية (end-to-end) لغرض التعرف على العنف في مقاطع الفيديو. يستخدم النموذج المقترح مُستخرج الميزات المكانية VGG-16 المُدرّب مسبقًا على مجموعة بيانات ImageNet، يليه مُستخرج الميزات الزمنية باستخدام الشبكة العصبية طويلة الذاكرة القصيرة (LSTM)، وسلسلة من الطبقات المتصلة بالكامل (fully connected layers) لأغراض التصنيف. وقد حقق النموذج دقة قريبة من أحدث النماذج المطورة حاليًا. بالإضافة إلى ذلك، نساهم في تقديم معيار جديد يُسمى "الوضعيات الواقعية للعنف" (Real-Life Violence Situations)، والذي يتضمن 2000 مقطع فيديو قصيرًا مقسمة إلى 1000 مقطع عنف و1000 مقطع غير عنف. يُستخدم هذا المعيار الجديد لضبط النموذج الدقيق (fine-tuning)، مما أسفر عن تحقيق أفضل دقة تبلغ 88.2%.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار