TSGCNeXt: تقوية متعددة الرسوم البيانية ديناميكية-ثابتة للتعرف الفعّال على الإجراءات القائمة على الهيكل العظمي مع إمكانية التعلم الطويلة الأمد

تم تحقيق نتائج مميزة في التعرف على الأفعال البشرية باستخدام التعرف القائم على الهيكل العظمي بفضل تطور الشبكات التلافيفية الرسومية (GCNs). ومع ذلك، تميل الدراسات الحديثة إلى بناء آليات تعلم معقدة تتضمن تدريبًا مكررًا، كما تواجه عقبة طويلة الأمد في معالجة التسلسلات الزمنية الطويلة. لحل هذه المشكلات، نقترح نموذج Temporal-Spatio Graph ConvNeXt (TSGCNeXt) لاستكشاف آلية تعلم فعالة للسلاسل الزمنية الطويلة للهيكل العظمي. أولاً، نقترح آلية جديدة لتعلم الرسوم البيانية ذات بنية بسيطة تُسمى "الConvolution متعدد الرسوم البيانية المفصولة ديناميكيًا وثابتًا" (DS-SMG)، والتي تجمع ميزات عدة رسوم بيانية مستقلة من حيث البنية الهيكلية، وتتجنب إهمال معلومات العقد أثناء الت convolution الديناميكي. ثانيًا، نُنشئ آلية لتسريع تدريب الت convolution على الرسوم البيانية، بهدف تحسين عملية الحساب العكسي (back-propagation) في تعلم الرسوم البيانية الديناميكية، حيث حققنا تسريعًا بنسبة 55.08٪. أخيرًا، إعادة هيكلة بنية GCN بشكل شامل من خلال ثلاثة وحدات لتعلم المكان والزمن، مما يمكّن من نمذجة فعالة للميزات الزمنية الطويلة. مقارنةً بالأساليب السابقة على مجموعتي بيانات كبيرة الحجم NTU RGB+D 60 و120، يتفوق TSGCNeXt في الشبكات ذات التدفق الواحد. علاوةً على ذلك، وباستخدام نموذج ema في دمج التدفقات المتعددة، يحقق TSGCNeXt مستويات قياسية حديثة (SOTA). وبلغت دقة النموذج 90.22٪ و91.74٪ في تجارب التفاعل بين الأفراد (cross-subject) والتجارب بين المجموعات (cross-set) على NTU 120، على التوالي.