HyperAIHyperAI
منذ 3 أشهر

شكل الإنسان ثلاثي الأبعاد ووضعه من صورة واحدة منخفضة الدقة باستخدام التعلم ذاتي التحفيز

Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando De la Torre
شكل الإنسان ثلاثي الأبعاد ووضعه من صورة واحدة منخفضة الدقة باستخدام التعلم ذاتي التحفيز
الملخص

لقد كان تقدير شكل الإنسان ثلاثي الأبعاد ووضعه من صور مفردة مجالًا نشطًا في رؤية الحاسوب، وأثّر بشكل كبير في تطوير تطبيقات جديدة، بدءًا من التعرف على الأنشطة وحتى إنشاء أفاتار افتراضية. تعتمد الطرق الحديثة القائمة على التعلم العميق لتقدير شكل الإنسان ثلاثي الأبعاد ووضعه على صور دخل عالية الدقة؛ ومع ذلك، فإن محتوى الصور عالي الدقة ليس دائمًا متاحًا في العديد من السياقات العملية مثل المراقبة عبر الفيديو بثّ الرياضات. قد تختلف صور الدقة المنخفضة في السياقات الواقعية في أحجامها بشكل واسع، ولا تُظهر النماذج المدربة على دقة معينة تدهورًا تدريجيًا عند تطبيقها على دقة مختلفة. هناك طريقتان شائعتان لحل مشكلة الدخل من صور منخفضة الدقة: تطبيق تقنيات تحسين الدقة (super-resolution) على الصور المدخلة، والتي قد تؤدي إلى تشوهات بصرية، أو تدريب نموذج منفصل لكل دقة، وهو أمر غير عملي في العديد من التطبيقات الواقعية. ولحل هذه المشكلات، تُقدّم هذه الورقة خوارزمية جديدة تُسمى RSC-Net، تتكون من شبكة تُدرك الدقة (Resolution-aware network)، ووظيفة خسارة ذاتية التدريب (Self-supervision loss)، ونمط تعلّم تبايني (Contrastive learning scheme). تُتيح الشبكة المقترحة التعلّم على شكل الجسم ثلاثي الأبعاد ووضعه عبر دقة مختلفة باستخدام نموذج واحد فقط. وتشجع وظيفة الخسارة ذاتية التدريب على الاتساق في المقياس للإخراج، بينما يُعزز نمط التعلّم التبايني الاتساق في الميزات العميقة. ونُظهر أن كلا الخسارتَين التدرّيسيتين الجديدتين يُقدّمان مقاومة قوية عند التعلّم على شكل الجسم ووضعه بطريقة ضعيفة التدريب. وتُظهر التجارب الواسعة أن RSC-Net تحقق نتائج أفضل باستمرار مقارنةً بأفضل الطرق الحالية في حالات الصور ذات الدقة المنخفضة الصعبة.