InstaGAN: الترجمة من صورة إلى صورة مع الوعي بالحالة

ترجمة الصور بدون إشراف (Unsupervised Image-to-Image Translation) حازت على اهتمام كبير بفضل التقدم الملحوظ الذي تحقق مؤخرًا باستخدام شبكات المولدات المعادية (Generative Adversarial Networks - GANs). ومع ذلك، غالبًا ما تفشل الطرق السابقة في الحالات الصعبة، خاصة عندما تحتوي الصورة على العديد من النماذج المستهدفة ويتضمن مهمة الترجمة تغييرات كبيرة في الشكل، مثل تحويل السراويل إلى تنورات في صور الأزياء. لمعالجة هذه المشكلات، نقترح طريقة جديدة أطلقنا عليها اسم GAN الواعية للنماذج (Instance-Aware GAN - InstaGAN)، والتي تدمج معلومات النموذج (مثل أقنعة تقسيم الكائنات) وتحسن التحويل المتعدد للنماذج. الطريقة المقترحة تقوم بترجمة كل من الصورة ومجموعة الخصائص المرتبطة بالنماذج مع الحفاظ على خاصية عدم تغير الترتيب (Permutation Invariance Property) للنماذج. لهذا الغرض، نقدم دالة خسارة تحافظ على السياق (Context Preserving Loss) تشجع الشبكة على تعلم الدالة المتطابقة خارج النماذج المستهدفة. كما نقترح تقنية استدلال/تدريب بالدُفعات المصغرة المتتابعة (Sequential Mini-Batch Inference/Training Technique) التي تعالج النماذج المتعددة باستخدام ذاكرة GPU محدودة وتزيد من قدرة الشبكة على التعامل بشكل أفضل مع النماذج المتعددة. يظهر تقييمنا المقارن فعالية الطريقة المقترحة على مجموعات بيانات صور مختلفة، وخاصةً في الحالات الصعبة المشار إليها سابقًا. يمكن الوصول إلى الرمز والنتائج عبر الرابط: https://github.com/sangwoomo/instagan