HyperAIHyperAI
منذ 2 أشهر

تفكيك فضاء مسار للتقدير ثلاثي الأبعاد للوضعية البشرية بناءً على الفيديو العميق

Jiahao Lin; Gim Hee Lee
تفكيك فضاء مسار للتقدير ثلاثي الأبعاد للوضعية البشرية بناءً على الفيديو العميق
الملخص

النماذج العميقة الحالية لتقدير وضع الإنسان ثلاثي الأبعاد في مقاطع الفيديو تعتمد إما على شبكات العصب المتكررة أو شبكات العصب التلافيفية (RNNs أو CNNs). ومع ذلك، فإن الإطارات القائمة على RNN يمكنها فقط التعامل مع سلاسل ذات عدد محدود من الإطارات لأن النماذج التتابعية حساسة للإطارات السيئة وتميل إلى الانحراف في السلاسل الطويلة. رغم أن الإطارات الزمنية القائمة على CNN الحالية تحاول معالجة مشكلتي الحساسية والانحراف من خلال معالجة جميع الإطارات المدخلة بشكل متزامن، فإن أفضل نموذج قائمة على CNN حاليًا يقتصر على تقدير وضع ثلاثي الأبعاد لإطار واحد فقط من المدخلات التتابعية. في هذا البحث، نقترح إطارًا قائمًا على التعلم العميق يستخدم عامل تحليل المصفوفات لتقدير وضع الإنسان ثلاثي الأبعاد في السلاسل التتابعية. يعالج نهجنا جميع الإطارات المدخلة بشكل متزامن لتجنب مشكلتي الحساسية والانحراف، ومع ذلك فإنه ينتج تقديرات الوضع الثلاثي الأبعاد لكل إطار في السلسلة المدخلة. وبشكل أكثر تحديدًا، يتم تمثيل أوضاع الإنسان ثلاثية الأبعاد في جميع الإطارات كمصفوفة حركة يتم تحليلها إلى مصفوفة أساس المسار ومصفوفة معامل المسار. يتم حساب مصفوفة أساس المسار مسبقًا باستخدام نهج تحليل المصفوفات مثل تحليل القيمة المنفردة (SVD) أو تحويل جيب التمام المنفصل (DCT)، ويتم تخفيض مشكلة تقدير الوضع الثلاثي الأبعاد التتابعي إلى تدريب شبكة عميقة لتوقع مصفوفة معامل المسار. نثبت فعالية إطارنا من خلال تحقيق أفضل الأداء في عدة مجموعات بيانات مرجعية للسلاسل الطويلة. رمز المصدر الخاص بنا متاح على الرابط التالي: https://github.com/jiahaoLjh/trajectory-pose-3d.

تفكيك فضاء مسار للتقدير ثلاثي الأبعاد للوضعية البشرية بناءً على الفيديو العميق | أحدث الأوراق البحثية | HyperAI