منذ 7 أشهر

الملخص

ترجمة الصور بدون إشراف (Unsupervised Image-to-Image Translation) حازت على اهتمام كبير بفضل التقدم الملحوظ الذي تحقق مؤخرًا باستخدام شبكات المولدات المعادية (Generative Adversarial Networks - GANs). ومع ذلك، غالبًا ما تفشل الطرق السابقة في الحالات الصعبة، خاصة عندما تحتوي الصورة على العديد من النماذج المستهدفة ويتضمن مهمة الترجمة تغييرات كبيرة في الشكل، مثل تحويل السراويل إلى تنورات في صور الأزياء. لمعالجة هذه المشكلات، نقترح طريقة جديدة أطلقنا عليها اسم GAN الواعية للنماذج (Instance-Aware GAN - InstaGAN)، والتي تدمج معلومات النموذج (مثل أقنعة تقسيم الكائنات) وتحسن التحويل المتعدد للنماذج. الطريقة المقترحة تقوم بترجمة كل من الصورة ومجموعة الخصائص المرتبطة بالنماذج مع الحفاظ على خاصية عدم تغير الترتيب (Permutation Invariance Property) للنماذج. لهذا الغرض، نقدم دالة خسارة تحافظ على السياق (Context Preserving Loss) تشجع الشبكة على تعلم الدالة المتطابقة خارج النماذج المستهدفة. كما نقترح تقنية استدلال/تدريب بالدُفعات المصغرة المتتابعة (Sequential Mini-Batch Inference/Training Technique) التي تعالج النماذج المتعددة باستخدام ذاكرة GPU محدودة وتزيد من قدرة الشبكة على التعامل بشكل أفضل مع النماذج المتعددة. يظهر تقييمنا المقارن فعالية الطريقة المقترحة على مجموعات بيانات صور مختلفة، وخاصةً في الحالات الصعبة المشار إليها سابقًا. يمكن الوصول إلى الرمز والنتائج عبر الرابط: https://github.com/sangwoomo/instagan

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار