تعلم ما وأين الرسم

شبكات التوليد المتنافسة (GANs) أظهرت مؤخرًا قدرتها على توليد صور واقعية مثيرة للإعجاب، مثل ديكورات الغرف، أغلفة الألبومات، المانجا، الوجوه، الطيور والزهور. بينما يمكن للنماذج الحالية توليد الصور بناءً على قيود عالمية مثل تصنيف الفئة أو التعليق، إلا أنها لا توفر السيطرة على الوضع أو موقع الكائن. نقترح نموذجًا جديدًا يُعرف بشبكة التوليد المتنافسة ما-أين (GAWWN)، والذي يقوم بتوليد الصور بناءً على تعليمات تصف ما يجب رسمه في أي موقع. نوضح توليد صور عالية الجودة بحجم 128 × 128 بكسل باستخدام مجموعة بيانات طيور كالتك-يو سي إس دي (Caltech-UCSD Birds)، مشروطة بالوصف النصي غير الرسمي وموقع الكائن. نظامنا يكشف عن السيطرة على الصندوق الحددي حول الطائر وأجزائه المكونة. من خلال نمذجة التوزيعات الشرطية لمواقع الأجزاء، يمكن لنظامنا أيضًا العمل مع مجموعات فرعية عشوائية من الأجزاء (مثل المنقار والذيل فقط)، مما يؤدي إلى واجهة كفاءة لاختيار مواقع الأجزاء. كما نقدم أيضًا نتائج أولية في المجال الأكثر تحديًا لتوليد الصور القابل للتحكم بالنص والموقع لأفعال البشر باستخدام مجموعة بيانات وضع الإنسان من معهد ماكس بلانك للذكاء الحركي (MPII Human Pose).