HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة انتباه هيراركية مُدركة للحركة لتقدير وضعية الإنسان في الفيديوهات

Kyung-Min Jin Byoung-Sung Lim Gun-Hee Lee Tae-Kyung Kang Seong-Whan Lee

الملخص

أظهرت الطرق السابقة لاستخراج وضعية الإنسان القائمة على الفيديو نتائج واعدة من خلال الاستفادة من الميزات المجمعة للإطارات المتتالية. ومع ذلك، فإن معظم هذه الطرق تتنازل عن الدقة لتقليل الاهتزاز (jitter)، أو لا تفهم بشكل كافٍ الجوانب الزمنية للحركة البشرية. علاوةً على ذلك، تزيد الظلال (الإغلاق) من عدم اليقين بين الإطارات المتتالية، مما يؤدي إلى نتائج غير سلسة. ولحل هذه المشكلات، صممنا بنية معمارية تستفيد من الخصائص الديناميكية للنقاط المميزة (keypoint) من خلال المكونات التالية: أولاً، نستخلص بكفاءة الميزات الزمنية من خلال الاستفادة من سرعة وعجلة كل نقطة مميزة بشكل منفصل. ثانيًا، يقوم المشفر التسلسلي (hierarchical transformer encoder) المُقترح بجمع الاعتماديات المكانية-الزمنية وتحسين وضعية الإدخال ثنائية أو ثلاثية الأبعاد المستخرجة من مُقدّرات موجودة مسبقًا. وأخيرًا، نقدم رقابة متقاطعة في الوقت الفعلي بين الوضعية المُحسَّنة المُنتجة من المشفر والوضعية النهائية الناتجة عن فك التشفير (decoder)، بهدف تمكين التحسين المشترك. ونُظهر نتائج شاملة ونُثبت فعالية نموذجنا في مهام متعددة: استخراج الوضعية ثنائية الأبعاد، واستخراج الوضعية ثلاثية الأبعاد، واسترجاع الشبكة الجسدية (body mesh)، واستخراج وضعية البشر المتعددين ببيانات مُعلمة بشكل متباعد. يتوفر الكود الخاص بنا على الرابط: https://github.com/KyungMinJin/HANet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp