استغلال المعلومات الزمنية لتقدير الوضع ثلاثي الأبعاد

في هذا العمل، نتناول مشكلة تقدير الوضع البشري ثلاثي الأبعاد من سلسلة أوضاع بشرية ثنائية الأبعاد. رغم أن النجاح الحديث للشبكات العميقة قد أدى إلى تدريب العديد من الأساليب الرائدة في تقدير الوضع ثلاثي الأبعاد للشبكات العميقة من البداية إلى النهاية لتنبؤها مباشرة من الصور، إلا أن الأساليب الأكثر فعالية أظهرت فعالية تقسيم مهمة تقدير الوضع ثلاثي الأبعاد إلى خطوتين: استخدام مقدر وضع رائد ثنائي الأبعاد لتقدير الوضع الثنائي الأبعاد من الصور ثم رسمه في الفضاء ثلاثي الأبعاد. كما أظهروا أن تمثيلًا منخفض البعد مثل مواقع مجموعات المفاصل ثنائية الأبعاد يمكن أن يكون تمييزًا كافيًا لتقدير الوضع الثلاثي الأبعاد بدقة عالية. ومع ذلك، فإن تقدير الوضع الثلاثي الأبعاد لكل إطار على حدة يؤدي إلى تقديرات غير متسقة زمنيًا بسبب الخطأ المستقل في كل إطار مما يسبب التذبذب. لذلك، في هذا العمل نستفيد من المعلومات الزمنية عبر سلسلة مواقع المفاصل ثنائية الأبعاد لتقدير سلسلة أوضاع ثلاثية الأبعاد. صممنا شبكة ترجمة سلسلة إلى سلسلة تتكون من وحدات LSTM مع تطبيع الطبقات وروابط قصيرة تربط الإدخال بالإخراج في جانب المفكك (decoder) وفرضنا قيد الانسيابية الزمنية أثناء التدريب. اكتشفنا أن معرفة الانسياق الزمني تحسن أفضل النتائج المبلغ عنها على مجموعة بيانات Human3.6M بنسبة حوالي 12.2٪ وتساعد شبكتنا على استعادة أوضاع ثلاثية أبعاد متسقة زمنيًا عبر سلسلة صور حتى عندما يفشل محدد الوضع الثنائي الأبعاض (2D pose detector).