HyperAIHyperAI
منذ 12 أيام

نمذجة الإيقاع البصري النسبي للتعرف على الإجراءات القائمة على الهيكل العظمي ذاتي التدريب

{Guangcan Liu, Zhengtao Yu, Hu Han, Yisheng Zhu}
نمذجة الإيقاع البصري النسبي للتعرف على الإجراءات القائمة على الهيكل العظمي ذاتي التدريب
الملخص

يُعدّ التempo البصري معيارًا يُوصَف به الديناميكية والتغير الزمني، مما يُسهم في وصف الحركات بشكل فعّال. تُطبّق الطرق الحديثة التنبؤ بالتمبو البصري مباشرةً على تسلسلات العظام، لكنها قد تعاني من مشكلة تمثيل الميزات غير الكافية. في هذه الورقة، نلاحظ أن التمبو البصري النسبي يتماشى أكثر مع الحدس البشري، وبالتالي يُقدّم إشارات إشراف أكثر فعالية. استنادًا إلى هذا الملاحظة، نقترح إطارًا جديدًا يُسمى التعلم التبايني للتمبو البصري النسبي لتمثيل الحركات العظمية (RVTCLR). بشكل خاص، نصمم مهمة تعلّم التمبو البصري النسبي (RVTL) لاستكشاف معلومات الحركة داخل المقاطع داخل الفيديو، ونُطبّق مهمة الاتساق في المظهر (AC) لتعلم معلومات المظهر في الوقت نفسه، مما يؤدي إلى ميزات فضائية-زمنية أكثر تمثيلًا. علاوةً على ذلك، تتميز بيانات تسلسلات العظام بندرة أكبر مقارنةً ببيانات RGB، ما يجعل الشبكة تتعلم طرقًا مختصرة، وتُفرط في التخصّص للمعلومات من الدرجة الدنيا مثل مقاييس العظام. وللتمكن من تعلّم الدلالات من الدرجة العليا، نُصمم فرعًا جديدًا يُسمى الاتساق في التوزيع (DC)، والذي يتضمن ثلاث مكونات: تزوير بيانات مخصص للعظام (SDA)، ووحدة تشفير عظمية دقيقة (FSEM)، ووظيفة خسارة تنوع مُدركة للتوزيع (DD). نُسمي طريقتنا الكاملة (RVTCLR مع DC) بـ RVTCLR+. تُظهر التجارب الواسعة على مجموعتي بيانات NTU RGB+D 60 وNTU RGB+D 120 أن RVTCLR+ تحقق نتائج تنافسية مقارنةً بالأساليب الحديثة. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/Zhuysheng/RVTCLR.

نمذجة الإيقاع البصري النسبي للتعرف على الإجراءات القائمة على الهيكل العظمي ذاتي التدريب | أحدث الأوراق البحثية | HyperAI