SVMAC: تقدير الوضع البشري ثلاثي الأبعاد من صورة واحدة باستخدام التوافق بين الزوايا المتعددة في الرؤية الواحدة

استعادة الوضع البشري ثلاثي الأبعاد من المفاصل ثنائية الأبعاد لا تزال مشكلة صعبة، خاصة في غياب أي معلومات ثلاثية الأبعاد أو معلومات فيديو أو معلومات متعددة الزوايا. في هذا البحث، نقدم نموذجًا غير مشرف عليه يعتمد على شبكات التوليد التنافسية (GAN) يتكون من عدة مولدات تشترك في الوزن لتقدير وضع بشري ثلاثي الأبعاد من صورة واحدة دون وجود معلومات ثلاثية الأبعاد. في نموذجنا، نقدم اتساقًا متعدد الزوايا من زاوية واحدة (SVMAC) لتحسين أداء التقدير بشكل كبير. باستخدام مواقع المفاصل ثنائية الأبعاد كمدخلات، يقوم النموذج بتقدير وضع ثلاثي الأبعاد وكاميرا بشكل متزامن. خلال التدريب، يتم تدوير الوضع الثلاثي الأبعاد المقدر بزوايا عشوائية، وتعيد الكاميرا المقدرة إسقاط الوضعيات الثلاثية الأبعاد المحولة إلى بعدين. سيتم إدخال الإسقاطات ثنائية الأبعاد إلى المولدات التي تشترك في الوزن لتقييم الوضعيات الثلاثية الأبعاد والكاميرات المرتبطة بها، والتي يتم بعد ذلك خلطها لفرض قيود SVMAC للإشراف الذاتي على عملية التدريب. تظهر النتائج التجريبية أن طريقتنا تتفوق على أفضل الأساليب غير المشرفة الحالية على قاعدة بيانات Human 3.6M و MPI-INF-3DHP. بالإضافة إلى ذلك، تظهر النتائج النوعية على قاعدة بيانات MPII و LSP أن طريقتنا يمكن أن تتعمم بشكل جيد على البيانات غير المعروفة.