التكرار الزمني الواعي لاستعادة وضعية وشكل الإنسان في الفيديو

رغم التقدم الملحوظ الذي تحقق في استعادة وضعية وشكل الإنسان من الصور ثنائية الأبعاد (RGB) في السنوات الأخيرة، لا يزال الحصول على حركة ثلاثية الأبعاد للإنسان بدقة عالية واتساق زمني من الفيديوهات تحديًا. تميل الطرق القائمة على الفيديو الحالية إلى إعادة بناء حركة الإنسان من الخصائص العالمية للصور، والتي تعاني من نقص في قدرة التمثيل التفصيلي وتقييد دقة الإعادة. في هذا البحث، نقترح شبكة تكرارية واعية بالزمن (TAR)، لاستكشاف الخصائص العالمية والمحلية الواعية بالزمن بشكل متزامن لتحقيق استعادة دقيقة لوضعية وشكل الإنسان. أولاً، يتم تقديم مُشفِّر عالمي باستخدام تقنية الترانسفورمر للحصول على الخصائص العالمية الزمنية من سلاسل الخصائص الثابتة. ثانياً، تستقبل شبكة ConvGRU ثنائية الاتجاه سلسلة خرائط الميزات ذات الدقة العالية كمدخلات، وتنتج خرائط ميزات محلية زمنية تحتفظ بدقتها العالية وتلتقط الحركة المحلية لجسم الإنسان. أخيراً، يقوم وحدة تكرار التحسين بتحديث المعلمات المقدرة لنموذج SMPL بشكل متكرر عن طريق الاستفادة من المعلومات الزمنية العالمية والمحلية لتحقيق نتائج دقيقة وسلسة. تظهر التجارب الواسعة أن شبكتنا TAR تحصل على نتائج أكثر دقة من الطرق الرائدة سابقًا في مقاييس شعبية مثل 3DPW، MPI-INF-3DHP، وHuman3.6M.