Command Palette
Search for a command to run...
استغلال المعلومات الزمنية لتقدير وضعية الإنسان ثلاثية الأبعاد
استغلال المعلومات الزمنية لتقدير وضعية الإنسان ثلاثية الأبعاد
James J. Little Mir Rayat Imtiaz Hossain
الملخص
في هذه الدراسة، نتناول مشكلة تقدير الوضع الثلاثي الأبعاد للإنسان من تسلسل من الوضعيات ثنائية الأبعاد. وعلى الرغم من النجاح الأخير للشبكات العميقة الذي أدى إلى تبني العديد من الطرق المتطورة في تقدير الوضع الثلاثي الأبعاد لتدريب الشبكات العميقة بشكل مباشر (end-to-end) للتنبؤ مباشرةً من الصور، إلا أن أبرز الطرق المتفوقة أظهرت فعالية تقسيم مهمة تقدير الوضع الثلاثي إلى خطوتين: استخدام مُقدِّر ثنائي الأبعاد متطور لتقدير الوضع ثنائي الأبعاد من الصور، ثم تحويل هذه الوضعيات إلى الفضاء الثلاثي الأبعاد. كما أظهرت هذه الطرق أن تمثيلاً منخفض الأبعاد، مثل مواقع نقاط المفاصل في تسلسل معين، يمكن أن يكون كافيًا لتقدير الوضع الثلاثي بدقة عالية. ومع ذلك، فإن تقدير الوضع الثلاثي لكل إطار على حدة يؤدي إلى تقديرات غير متسقة زمنيًا بسبب الأخطاء المستقلة في كل إطار والتي تؤدي إلى اهتزازات (jitter). لذلك، في هذه الدراسة، نستفيد من المعلومات الزمنية المتوفرة في تسلسل مواقع المفاصل ثنائية الأبعاد لتقدير تسلسل من الوضعيات الثلاثية الأبعاد. وقد صممنا شبكة من نوع sequence-to-sequence مكونة من وحدات LSTM مع تطبيع الطبقة (layer-normalized LSTM)، مع وجود روابط مساعدة (shortcut connections) تربط المدخلات بالخرج في جانب المُفكِّك (decoder)، وفرضنا قيدًا على السلسالة الزمنية (temporal smoothness constraint) أثناء التدريب. وجدنا أن معرفة التماسك الزمني تُحسِّن النتيجة الأفضل المبلغ عنها على مجموعة بيانات Human3.6M بنسبة تقارب 12.2%، كما يساعد شبكتنا على استعادة وضعيات ثلاثية أبعاد متسقة زمنيًا على طول تسلسل الصور، حتى عند فشل مُحدِّد الوضع ثنائي الأبعاد.