اكتشاف الشذوذ في الفيديو المتمحور حول الإنسان من خلال الترميز المكاني-زماني للوضعية والترانسفورمر

كشف الشذوذ في الفيديو (VAD) يمثل تحديًا كبيرًا في مجال رؤية الحاسوب، وذلك بشكل خاص بسبب الطبيعة غير المتوقعة والنادرة للأحداث الشاذة، بالإضافة إلى البيئات المتنوعة والديناميكية التي تحدث فيها هذه الأحداث. وفيما يتعلق بكشف الشذوذ في الفيديو المتمحور حول الإنسان (Human-centric VAD)، وهو مجال متخصص ضمن هذا النطاق، فإن هناك تعقيدات إضافية تشمل التباين في سلوك الإنسان، التحيز المحتمل في البيانات، والمخاوف المتعلقة بالخصوصية المرتبطة بأشخاص حقيقيين. هذه القضايا تزيد من صعوبة تطوير نماذج تكون قوية وقابلة للتعميم. لمواجهة هذه التحديات، ركزت التطورات الحديثة على كشف الشذوذ في الفيديو المستند إلى الوضع (Pose-based VAD)، والذي يستخدم وضع الإنسان كمعلمة عليا لتخفيف مخاوف الخصوصية، تقليل التحيز البصري، وتقليل التدخل الخلفي. وفي هذا البحث، نقدم SPARTA، وهي هندسة معمارية جديدة تعتمد على المتحولات (Transformer) ومصممة خصيصًا لكشف الشذوذ في الفيديو المتمحور حول الإنسان المستند إلى الوضع. يُدخل SPARTA طريقة توكنة (Tokenization) مبتكرة للوضع الزماني والمكاني ووضع النسبية (ST-PRP)، والتي تنتج تمثيلًا غنيًا لحركة الإنسان عبر الزمن. يضمن هذا النهج أن آلية الانتباه للمتحول تستوعب الأنماط الزمانية والمكانية معًا وليس جانبًا واحدًا فقط. كما أن إضافة وضع النسبية تؤكد الانحرافات الدقيقة عن الحركات البشرية الطبيعية. يعتبر جوهر الهندسة المعمارية هو المتحول الجديد ذو المُشفر الموحد والمُفكِّكين الثنائيين (UETD)، والذي يحسن بشكل كبير اكتشاف السلوكيات الشاذة في بيانات الفيديو. أظهرت التقييمات الواسعة عبر عدة مجموعات بيانات معيارية أن SPARTA تتفوق باستمرار على الأساليب الموجودة حاليًا، مما يجعلها تقنية رائدة جديدة في مجال كشف الشذوذ في الفيديو المستند إلى الوضع.