تجميع الوضع المُدمج في الرسم البياني للكشف عن الشذوذ

نُقدّم طريقة جديدة للكشف عن الشذوذ في الحركات البشرية. تعتمد هذه الطريقة مباشرة على رسومات الوضعية البشرية (human pose graphs)، التي يمكن استخلاصها من تسلسل فيديو مدخل. هذا يُجنب التحليل التأثيرات الناتجة عن مُعاملات غير مرغوب فيها مثل زاوية الرؤية أو الإضاءة. نقوم بتحويل هذه الرسومات إلى فضاء خفي (latent space) ثم تجميعها في مجموعات. يُمثّل كل فعل بتعيين لطيف (soft-assignment) لكل مجموعة، مما يُنتج تمثيلاً من نوع "حقيبة كلمات" (bag of words) للبيانات، حيث يُعبّر عن كل فعل بقدر تشابهه مع مجموعة من "كلمات الحركات الأساسية". ثم نستخدم نموذجًا مزيجًا مبنيًا على عملية ديريشليه (Dirichlet process-based mixture)، والذي يُعد مناسبًا لمعالجة البيانات النسبية مثل متجهات التعيين اللطيف، لتحديد ما إذا كان الفعل طبيعيًا أم لا.نقيّم طريقتنا على نوعين من مجموعات البيانات. الأول هو مجموعة بيانات للكشف عن الشذوذ بدقة عالية (مثل ShanghaiTech)، حيث نهدف إلى اكتشاف التغيرات غير العادية في بعض الحركات. والثاني هو مجموعة بيانات للكشف عن الشذوذ بدرجة تفصيلية منخفضة (مثل مجموعة مبنية على Kinetics)، حيث يُعتبر عدد قليل من الحركات طبيعية، بينما تُصنف كل حركة أخرى على أنها غير طبيعية.أظهرت التجارب الواسعة على المعايير المعيارية أن طريقتنا تتفوّق بشكل ملحوظ على الطرق الأخرى المتطورة حديثًا.