التطابق متعدد الزوايا (MVM): تعزيز تعلّم التقدير ثلاثي الأبعاد للوضعية متعددة الأشخاص باستخدام مقاطع فيديو لأشخاص متجمدين حسب الحركة

لحل المشكلة الصعبة لتقدير الوضع الثلاثي الأبعاد لعدة أشخاص من صورة واحدة، نقترح في هذا العمل طريقة تُسمى مطابقة المقاييس المتعددة (MVM). تعتمد هذه الطريقة على إنشاء وضعيات بشرية ثلاثية الأبعاد موثوقة باستخدام مجموعة بيانات فيديو ضخمة تُعرف باسم مجموعة بيانات Mannequin، التي تحتوي على أشخاص يُقلدون تماثيل بشرية في وضعية ثابتة. وبفضل كمية كبيرة من بيانات الفيديو الواقعية التي تم تسميتها تلقائيًا باستخدام إشراف ثلاثي الأبعاد تم إنشاؤه بواسطة طريقة MVM، أصبح من الممكن تدريب شبكة عصبية تأخذ صورة واحدة كمدخل لتقدير الوضع الثلاثي الأبعاد لعدة أشخاص. تكمن التكنولوجيا الأساسية لطريقة MVM في التموضع الفعّال للوضعيات ثنائية الأبعاد المستمدة من عدة زوايا لمشهد ثابت يمتلك قيودًا هندسية قوية. ويهدف هذا العمل إلى تعظيم الاتساق المتبادل بين الوضعيات الثنائية الأبعاد المقدرة في عدة إطارات، مع أخذ القيود الهندسية والتشابهات البصرية بعين الاعتبار في آنٍ واحد. ولإثبات فعالية الإشراف ثلاثي الأبعاد الذي توفره طريقة MVM، أجرينا تجارب على مجموعتي بيانات 3DPW وMSCOCO، وأظهرنا أن الحل المُقترح يحقق أفضل أداء ممكن في مستوى الحالة الحالية.