مُحَوِّل الفيديو الفعّال من حيث البيانات للكشف عن العنف
في المدن الذكية، يُعد كشف حوادث العنف أمرًا بالغ الأهمية لضمان سلامة المدينة. تم إجراء العديد من الدراسات في هذا المجال، مع التركيز على الشبكة العصبية التلافيفية الثنائية الأبعاد (2D-CNN) لاكتشاف السمات المكانية من كل إطار، تليها إحدى نماذج الشبكات العصبية التكرارية (RNN) كطريقة لتعلم السمات الزمنية. من ناحية أخرى، حققت الشبكات المحولة (Transformer) نتائج متميزة في مجالات عديدة. لكن العقبة الرئيسية أمام الشبكات المحولة تكمن في الحاجة إلى مجموعات بيانات كبيرة لتحقيق نتائج جيدة. في هذا العمل، نقترح نموذجًا يُسمى "محول الفيديو الفعّال من حيث البيانات" (DeVTr)، المستند إلى بنية الشبكة المحولة، كطريقة لتعلم السمات المكانية-الزمنية، مع استخدام شبكة عصبية تلافيفية ثنائية الأبعاد مُدرّبة مسبقًا (2D-CNN) كطبقة تمثيلية (Embedding Layer) للبيانات المدخلة. تم تدريب النموذج واختباره على مجموعة بيانات العنف في الحياة الواقعية (RLVS)، وحقق دقة وصلت إلى 96.25٪. كما أظهرت المقارنة بين نتائج الطريقة المقترحة والتقنيات السابقة أن الطريقة المُقترحة تتفوّق على جميع الدراسات الأخرى في مجال كشف حوادث العنف.