HyperAIHyperAI
منذ 16 أيام

التحفيز المشترك للبيانات المختلطة للتعرف على الحركات القائمة على الهيكل العظمي

{Zengfu Wang, Linhua Xiang}
الملخص

تمثيل الحركات القائمة على الهيكل العظمي (Skeleton-based action recognition) يُعد مفيدًا لفهم السلوك البشري في مقاطع الفيديو، وقد حظي بقدر كبير من الاهتمام في السنوات الأخيرة كمجال بحثي مهم في مجال تمييز الحركات. تتركز الأبحاث الحالية على تصميم خوارزميات أكثر تقدمًا لاستخراج معلومات مكانيّة وزمانيّة بشكل أفضل من بيانات الهيكل العظمي. ومع ذلك، نظرًا لقلة كمية البيانات في المجموعات الحالية من بيانات الهيكل العظمي، ونقص طرق فعّالة لتوسيع البيانات (data augmentation)، يصبح من السهل حدوث تطابق مفرط (overfitting) أثناء تدريب النموذج. ولحل هذه التحديات، نقترح طريقة جديدة لتوسيع البيانات تعتمد على المزج، تُسمى "مزيج البيانات المُعدّل بالهياكل العظمية" (Joint Mixing Data Augmentation - JMDA)، التي تُحسّن بشكل عام كفاءة وثبات العديد من خوارزميات تمييز الحركات القائمة على الهيكل العظمي.من حيث المعلومات المكانية، نقدّم تقنية تُسمى "SpatialMix (SM)"، وهي طريقة تقوم بتحويل معلومات الهيكل العظمي الثلاثية الأبعاد (3D) إلى فضاء ثنائي الأبعاد (2D). ثم، تقوم SM بمزج المعلومات المكانية المُعاد تشكيلها بين عينتين عشوائيتين أثناء عملية التدريب، لتحقيق تحسين مبني على المزج للمعلومات المكانية. أما من حيث المعلومات الزمنية، فنُقدّم تقنية "TemporalMix (TM)"، والتي تُستفيد من الاستمرارية الزمنية المميزة لبيانات الهيكل العظمي، حيث تُجرى عملية إعادة تعيين زمني (temporal resize) على البيانات الأصلية، ثم تُدمج عينتان عشوائيتان خلال التدريب لتحقيق مزج مبني على المكونات الزمنية.بالإضافة إلى ذلك، نُحلّل مشكلة "عدم التوافق في الميزات" (Feature Mismatch - FM) الناتجة عن تطبيق تقنيات المزج على بيانات الهيكل العظمي. ثم نقترح طريقة معالجة بيانات جديدة تُسمى "محاذاة الميزات" (Feature Alignment - FA)، والتي تُعالج هذه المشكلة بشكل فعّال وتحسّن أداء النموذج. علاوةً على ذلك، نُقدّم مسارًا تدريبيًا جديدًا يُسمى "استراتيجية التدريب المشتركة" (Joint Training Strategy - JTS)، والذي يدمج عدة طرق لتوسيع البيانات القائمة على المزج بهدف تحسين أداء النموذج بشكل أكبر.وبشكل خاص، تُعد JMDA قابلة للتطبيق الفوري (plug-and-play) وواسعة الاستخدام في نماذج تمييز الحركات القائمة على الهيكل العظمي. كما أن تطبيق JMDA لا يزيد من عدد المعلمات في النموذج، ولا يُضيف تكلفة تدريبية كبيرة. أجرينا تجارب واسعة على مجموعتي بيانات NTU RGB+D 60 وNTU RGB+D 120، وأظهرت النتائج فعالية وثباتًا متميزين لطريقة JMDA عند تطبيقها على عدة خوارزميات شائعة في تمييز الحركات القائمة على الهيكل العظمي.

التحفيز المشترك للبيانات المختلطة للتعرف على الحركات القائمة على الهيكل العظمي | أحدث الأوراق البحثية | HyperAI