تقدير وضعية ثلاثية الأبعاد لعدة أشخاص باستخدام شبكات من أعلى إلى أسفل ومن أسفل إلى أعلى

في تقدير وضعية الجسم ثلاثية الأبعاد لعدة أشخاص من خلال الفيديو الأحادي العين، يمكن أن تؤدي الإخفاء بين الأشخاص والتفاعلات الوثيقة إلى حدوث أخطاء في اكتشاف الإنسان وعدم موثوقية في تجميع مفاصل الإنسان. تعاني الطرق الرأسية القائمة على الكشف عن الإنسان من هذه المشكلات. أما الطرق التحتية فتتجنب استخدام الكشف عن الإنسان، ولكنها تعالج جميع الأشخاص دفعة واحدة وبمقياس واحد، مما يجعلها حساسة للتغيرات في مقاسات الأشخاص المتعددين. للتعامل مع هذه التحديات، نقترح دمج الطرق الرأسية والتحتية للاستفادة من قواطعهما. يقدر شبكتنا الرأسية مفاصل الإنسان لجميع الأشخاص بدلاً من شخص واحد في بقعة صورة، مما يجعلها مقاومة للأخطاء المحتملة في الصناديق الحدودية. تقوم شبكتنا التحتية بدمج الخرائط الحرارية المُعَدَّلَة بناءً على كشف الإنسان، مما يسمح للشبكة بأن تكون أكثر مقاومة عند التعامل مع التغيرات في المقاس. أخيرًا، يتم إدخال الوضعيات ثلاثية الأبعاد المقدرة من قبل الشبكات الرأسية والتحتية إلى شبكتنا المتكاملة لإنتاج الوضعيات ثلاثية الأبعاد النهائية. بالإضافة إلى دمج الشبكات الرأسية والتحتية، وخلافًا للتمييزات الوضعية المصممة حصريًا للأفراد الواحد، والتي لا تستطيع بالتالي تقييم التفاعلات الطبيعية بين الأشخاص، نقترح تمييز وضعيتين شخصيتين يفرض التفاعلات الطبيعية بين شخصين. وأخيرًا، نقوم أيضًا بتطبيق طريقة شبه مراقبة للتغلب على نقص البيانات الحقيقية ثلاثية الأبعاد. تظهر تقييماتنا الكمية والنوعية فعالية طريقتنا مقارنة بالقواعد الأساسية الأكثر تقدمًا (state-of-the-art).