تعلم الترابط الديناميكي بين المفاصل البشرية لتقدير الوضع الثلاثي الأبعاد في الفيديوهات

تم استخدام شبكة الت convolution الرسومية (GCN) بنجاح في تقدير وضعية الإنسان ثلاثية الأبعاد في مقاطع الفيديو. ومع ذلك، فإنها غالبًا ما تُبنى على ارتباطات مفاصل الإنسان الثابتة وفقًا لهيكل العظام البشري، مما قد يقلل من قدرة GCN على التكيف مع التغيرات المعقدة في المجال الزمني-المكاني في مقاطع الفيديو. لمعالجة هذه المشكلة، نقترح شبكة رسومية ديناميكية جديدة تُسمى DG-Net، التي تستطيع تحديد ارتباطات مفاصل الإنسان بشكل ديناميكي، وتقدير الوضعية ثلاثية الأبعاد من خلال تعلم تفاعلات المفاصل المكانية/الزمنية بشكل تكيفي من مقاطع الفيديو. على عكس الت convolution الرسومية التقليدية، نُقدّم نوعين جديدين من الت convolution هما الت convolution المكاني/الزمني الديناميكي (DSG/DTG)، اللذان يُمكّنان من اكتشاف ارتباطات المفاصل البشرية المكانية/الزمنية لكل مثال في الفيديو، بناءً على المسافة المكانية أو تشابه الحركة الزمنية بين المفاصل في هذا الفيديو. وبالتالي، يمكنها فهم فعّال لتحديد أي المفاصل تكون أقرب مكانيًا أو تمتلك حركة متسقة، مما يساعد في تقليل الغموض في العمق أو عدم اليقين في الحركة عند رفع الوضعية ثنائية الأبعاد إلى ثلاثية الأبعاد. أجرينا تجارب واسعة على ثلاث معايير شهيرة، مثل Human3.6M وHumanEva-I وMPI-INF-3DHP، حيث تفوقت DG-Net على عدد من الأساليب الحديثة المتميزة (SOTA) باستخدام عدد أقل من الإطارات المدخلة وحجم نموذج أصغر.