HyperAIHyperAI
منذ 17 أيام

شبكة انتباه هيراركية مُدركة للحركة لتقدير وضعية الإنسان في الفيديوهات

Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang, Seong-Whan Lee
شبكة انتباه هيراركية مُدركة للحركة لتقدير وضعية الإنسان في الفيديوهات
الملخص

أظهرت الطرق السابقة لاستخراج وضعية الإنسان القائمة على الفيديو نتائج واعدة من خلال الاستفادة من الميزات المجمعة للإطارات المتتالية. ومع ذلك، فإن معظم هذه الطرق تتنازل عن الدقة لتقليل الاهتزاز (jitter)، أو لا تفهم بشكل كافٍ الجوانب الزمنية للحركة البشرية. علاوةً على ذلك، تزيد الظلال (الإغلاق) من عدم اليقين بين الإطارات المتتالية، مما يؤدي إلى نتائج غير سلسة. ولحل هذه المشكلات، صممنا بنية معمارية تستفيد من الخصائص الديناميكية للنقاط المميزة (keypoint) من خلال المكونات التالية: أولاً، نستخلص بكفاءة الميزات الزمنية من خلال الاستفادة من سرعة وعجلة كل نقطة مميزة بشكل منفصل. ثانيًا، يقوم المشفر التسلسلي (hierarchical transformer encoder) المُقترح بجمع الاعتماديات المكانية-الزمنية وتحسين وضعية الإدخال ثنائية أو ثلاثية الأبعاد المستخرجة من مُقدّرات موجودة مسبقًا. وأخيرًا، نقدم رقابة متقاطعة في الوقت الفعلي بين الوضعية المُحسَّنة المُنتجة من المشفر والوضعية النهائية الناتجة عن فك التشفير (decoder)، بهدف تمكين التحسين المشترك. ونُظهر نتائج شاملة ونُثبت فعالية نموذجنا في مهام متعددة: استخراج الوضعية ثنائية الأبعاد، واستخراج الوضعية ثلاثية الأبعاد، واسترجاع الشبكة الجسدية (body mesh)، واستخراج وضعية البشر المتعددين ببيانات مُعلمة بشكل متباعد. يتوفر الكود الخاص بنا على الرابط: https://github.com/KyungMinJin/HANet.

شبكة انتباه هيراركية مُدركة للحركة لتقدير وضعية الإنسان في الفيديوهات | أحدث الأوراق البحثية | HyperAI