التعلم الهيكلي بحد الهامشي الأقصى باستخدام الشبكات العميقة لتقدير وضع الجسم البشري ثلاثي الأبعاد

يركز هذا البحث على تعلم النواتج المهيكلة باستخدام الشبكات العصبية العميقة لتقدير وضع الإنسان ثلاثي الأبعاد من الصور الأحادية البؤرة. يتلقى شبكتنا صورة ووضعًا ثلاثي الأبعاد كمدخلات، ويخرج قيمة درجة، تكون عالية عندما يتطابق الزوج (الصورة-الوضع) ومنخفضة في غير ذلك. يتكون هيكل الشبكة من شبكة عصبية تقنية للحصول على خصائص الصورة، تليها شبكتان فرعيتان لتحويل خصائص الصورة والوضع إلى تمثيل مشترك. ثم تكون دالة الدرجة هي حاصل ضرب الدوت بين تمثيلي الصورة والوضع. يتم تدريب التمثيل المشترك للصورة والوضع ودالة الدرجة بشكل مشترك باستخدام دالة تكلفة الهامش الأقصى. يمكن تفسير الإطار المقترح لدينا كشكل خاص من آلات المتجهات الداعمة المهيكلة حيث يتم تعلم الفضاء المشترك للخصائص بشكل تمييزي باستخدام الشبكات العصبية العميقة. نختبر إطارنا على مجموعة بيانات Human3.6m ونحصل على نتائج رائدة مقارنة بالطرق الحديثة الأخرى. أخيرًا، نقدم تصورات لفضاء التمثيل المشترك للصورة والوضع، مما يظهر أن الشبكة قد تعلمت تمثيلًا رفيع المستوى للتوجيه الجسدي وتكوين الوضع.