الشبكات الواعية بالانسداد لتقدير وضعية الإنسان ثلاثية الأبعاد في الفيديو

الإغلاق يُعد مشكلة رئيسية في تقدير وضعية الإنسان ثلاثية الأبعاد من فيديو أحادي العدسة. ولحل هذه المشكلة، نقدم إطارًا تعليميًا عميقًا يراعي حالة الإغلاق. من خلال استخدام خرائط ثقة ثنائية الأبعاد المقدرة لنقاط المفتاح، وقيود اتساق التدفق البصري، نقوم بتصفية التقديرات غير الموثوقة لنقاط المفتاح المغطاة. عند حدوث الإغلاق، نحصل على نقاط مفتاح ثنائية الأبعاد غير كاملة، ونُدخلها إلى شبكتين تلافيفيتين زمنيتين ثنائيتين وثلاثيتين الأبعاد (2D و3D TCNs) اللتين تفرضان نعومة زمنية لإنتاج وضعية ثلاثية الأبعاد كاملة. وباستخدام نقاط مفتاح ثنائية الأبعاد غير الكاملة، بدلًا من استخدام نقاط كاملة لكنها خاطئة، تتأثر شبكاتنا أقل بالت estimations الخاطئة لنقاط المفتاح المغطاة. يتطلب تدريب الشبكة ثلاثية الأبعاد التي تراعي الإغلاق أزواجًا من الوضعية ثلاثية الأبعاد والوضعية ثنائية الأبعاد مع تسميات للإغلاق. وبما أن مثل هذه المجموعة غير متوفرة، نقدم نموذج "رجل الأسطوانة" لتقريب احتلال أجزاء الجسم في الفضاء ثلاثي الأبعاد. وباستخدام إسقاط هذا النموذج على مستوى ثنائي الأبعاد من زوايا مختلفة، نحصل على نقاط مفتاح مغطاة ونُسَمّيها، مما يوفر لنا كمًا كبيرًا من بيانات التدريب. علاوة على ذلك، نستخدم هذا النموذج لإنشاء قيد تنظيم الوضعية، بحيث يُفضَّل أن تكون تقديرات نقاط المفتاح غير الموثوقة مغطاة. تفوق طريقة التقدير لدينا الطرق الرائدة في مجالها على مجموعتي بيانات Human 3.6M وHumanEva-I.