تعلم من الصور المحاكاة والغير مشرفة من خلال التدريب المعادي

مع التقدم الحديث في الرسومات، أصبح من الأسهل تدريب النماذج على الصور المصنعة، مما قد يتجنب الحاجة إلى التسميات الباهظة الثمن. ومع ذلك، قد لا يتم تحقيق الأداء المطلوب عند التعلم من الصور المصنعة بسبب وجود فجوة بين توزيعات الصور المصنعة والصور الحقيقية. لتخفيض هذه الفجوة، نقترح التعلم المحاكى+غير المشرف (S+U)، حيث يكون الهدف هو تعلم نموذج لتحسين واقعية مخرجات المحاكي باستخدام البيانات الحقيقية غير المصحوبة بالتسميات، مع الحفاظ على معلومات التسميات من المحاكي. نطور طريقة للتعلم S+U تعتمد على شبكة تنافسية مشابهة لشبكات المنافسة الجenerative (GANs)، ولكن بدلاً من المتجهات العشوائية، يتم استخدام الصور المصنعة كمدخلات. نجري عدة تعديلات رئيسية على خوارزمية GAN القياسية للحفاظ على التسميات، تجنب التشوهات، وتثبيت التدريب: (i) حد ذاتي للتقييد (self-regularization)، (ii) خسارة تنافسية محلية (local adversarial loss)، و(iii) تحديث المنظم باستخدام تاريخ من الصور المعالجة. نوضح أن هذا يمكّن من إنشاء صور شديدة الواقعية، وهو ما نظهره بشكل نوعي ومن خلال دراسة مستخدمين. نقيم الصور المنتجة بشكل كمي عبر تدريب النماذج لتقدير النظر وتقدير وضع اليدين. نبين تحسيناً كبيراً عند استخدام الصور المصنعة، ونحقق أفضل النتائج المتاحة حالياً في مجموعة بيانات MPIIGaze دون أي بيانات حقيقية مصحوبة بالتسميات.