منذ 17 أيام
EVAL: توضيح توصيف الشذوذ في الفيديو
Ashish Singh, Michael J. Jones, Erik Learned-Miller

الملخص
نُطوّر إطارًا جديدًا لتحديد الشذوذ في مقاطع الفيديو من مشهد واحد، يتيح تفسيرات قابلة للفهم البشري لقرارات النظام. نبدأ أولاً بتعلم تمثيلات عامة للأجسام وحركتها (باستخدام الشبكات العميقة)، ثم نستخدم هذه التمثيلات لبناء نموذج ذكي ومرتبط بالموقع لأي مشهد معين. يمكن استخدام هذا النموذج للكشف عن الشذوذ في مقاطع فيديو جديدة لنفس المشهد. وبشكل مهم، فإن نهجنا قابل للتفسير — حيث يمكن لسماتنا عالية المستوى من حيث المظهر والحركة أن تقدم أسبابًا قابلة للفهم البشري لسبب تصنيف أي جزء من الفيديو على أنه طبيعي أو شاذ. قمنا بإجراء تجارب على مجموعات بيانات قياسية للكشف عن الشذوذ في الفيديو (مشهد الشارع، CUHK Avenue، شانغهاي تك، وUCSD Ped1، Ped2)، وأظهرنا تحسينات كبيرة مقارنة بالحالة المتقدمة السابقة.