HyperAIHyperAI
منذ 16 أيام

تمثيل الصورة الهيكلية للتعرف على الحركات ثلاثية الأبعاد بناءً على البنية الشجرية والمعالم المرجعية

Carlos Caetano, François Brémond, William Robson Schwartz
تمثيل الصورة الهيكلية للتعرف على الحركات ثلاثية الأبعاد بناءً على البنية الشجرية والمعالم المرجعية
الملخص

في السنوات الأخيرة، درست مجتمع بحوث الرؤية الحاسوبية كيفية نمذجة الديناميكيات الزمنية في الفيديوهات لاستخدامها في التعرف على الحركات البشرية ثلاثية الأبعاد. من أجل هذا الغرض، تم استكشاف نهجين رئيسيين كأساس: (أ) الشبكات العصبية التكرارية (RNNs) مع ذاكرة طويلة-قصيرة الأجل (LSTM)؛ و(ب) تمثيلات الهيكل العظمي (skeleton image representations) التي تُستخدم كمدخلات لشبكات العصبونات التلافيفية (CNN). وعلى الرغم من النتائج الممتازة التي تُظهرها الطرق القائمة على RNN، فإنها تفتقر إلى القدرة على التعلم الفعّال للعلاقات المكانية بين مفاصل الهيكل العظمي. من ناحية أخرى، تمتلك التمثيلات المستخدمة لغذاء النماذج القائمة على CNN الميزة المتمثلة في قدرتها الطبيعية على استخلاص المعلومات الهيكلية من المصفوفات الثنائية الأبعاد (أي أنها تتعلم العلاقات المكانية من مفاصل الهيكل العظمي). ولتحسين هذه التمثيلات بشكل أكبر، نقدم هنا تمثيلًا جديدًا يُسمى "صورة مفاصل مرجعية ذات بنية شجرية" (Tree Structure Reference Joints Image - TSRJI)، وهو تمثيل مُبتكر للهيكل العظمي يُستخدم كمدخل لشبكات CNN. يتم يتميز هذا التمثيل المقترح بدمج استخدام مفاصل مرجعية وبنية شجرية للهيكل العظمي: حيث يُضفي الأول علاقات مكانية مختلفة بين المفاصل، بينما يُحافظ الثاني على العلاقات المكانية المهمة من خلال تمرير الهيكل العظمي عبر خوارزمية تسلسل أولوية العمق (depth-first order). أظهرت النتائج التجريبية فعالية التمثيل المقترح في التعرف على الحركات ثلاثية الأبعاد على مجموعتي بيانات، حيث حقق نتائج متفوقة على المستوى العالمي (state-of-the-art) على مجموعة بيانات NTU RGB+D~120 الحديثة.

تمثيل الصورة الهيكلية للتعرف على الحركات ثلاثية الأبعاد بناءً على البنية الشجرية والمعالم المرجعية | أحدث الأوراق البحثية | HyperAI