HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم شبكات GAN القابلة لإعادة تكوين التخطيط والأسلوب للصورة القابلة للتحكم في التركيب

Wei Sun Tianfu Wu

الملخص

مع التقدم الملحوظ في مجال تعلم النماذج المولدة العميقة مؤخرًا، أصبح من المثير للاهتمام تطوير نماذج للتركيب الصوري القابل للتحكم من مدخلات قابلة لإعادة التكوين. يركز هذا البحث على مهمة جديدة ظهرت حديثًا، وهي تحويل التخطيط إلى صورة (layout-to-image)، لتعلم نماذج مولدة قادرة على تركيب صور واقعية من تخطيط فضائي (أي صناديق حدودية للأجسام مرتبة في شبكة صورية) وأسلوب (أي التغيرات الهيكلية والشكلية المشفرة بواسطة متجهات خفية).أولاً، يقترح هذا البحث نموذجًا بديهيًا للمهمة، وهو تحويل التخطيط إلى القناع ثم إلى الصورة (layout-to-mask-to-image)، لتعلم كيفية فك قناع الأجسام المعطاة في تخطيط الإدخال بهدف ردم الفجوة بين تخطيط الإدخال والصور المركبة. ثانياً، يقدم هذا البحث طريقة تعتمد على شبكات التنافر المولدة (Generative Adversarial Networks - GANs) للنموذج المقترح "تحويل التخطيط إلى القناع ثم إلى الصورة" مع التحكم في الأسلوب على مستوى الصورة والقناع.يتم تعلم قناع الأجسام من تخطيط الإدخال ويُكرَّر تنقيحه عبر مراحل شبكة المولد. يكون التحكم في الأسلوب على مستوى الصورة كما هو الحال في شبكات GANs التقليدية، بينما يتم تحقيق التحكم في الأسلوب على مستوى قناع الجسم عن طريق نظام جديد للمعايرة الميزات مقترح، وهو المعايرة الحساسة للحالة والمدركة للتخطيط (Instance-Sensitive and Layout-Aware Normalization).في التجارب، تم اختبار الطريقة المقترحة باستخدام مجموعة بيانات COCO-Stuff ومجموعة بيانات Visual Genome، حيث تم الحصول على أداء يتفوق على أفضل ما تم تحقيقه سابقًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp