Command Palette
Search for a command to run...
توليد الصور المتمحورة حول الكائنات من التخطيطات
توليد الصور المتمحورة حول الكائنات من التخطيطات
Tristan Sylvain Pengchuan Zhang Yoshua Bengio R Devon Hjelm Shikhar Sharma
الملخص
رغم النتائج المثيرة للإعجاب التي تحققت مؤخرًا في توليد الصور للكائنات الفردية والمجالات الفردية، لا يزال توليد المشاهد المعقدة التي تحتوي على كائنات متعددة أمرًا محفوفًا بالتحديات. في هذا البحث، نبدأ من فكرة أن النموذج يجب أن يكون قادرًا على فهم الكائنات الفردية والعلاقات بينها لكي يتمكن من توليد المشاهد المعقدة بشكل جيد. طريقة توليد الصور من التخطيط التي نقترحها، والتي نطلق عليها شبكة التوليد المركزية حول الكائنات (OC-GAN)، تعتمد على وحدة تماثل الرسم البياني للمشهد (SGSM) الجديدة. تقوم وحدة SGSM بتعلم تمثيل العلاقات المكانية بين الكائنات في المشهد، مما يؤدي إلى زيادة دقة التخطيط في نموذجنا. كما اقترحنا أيضًا تغييرات في آلية التحكم المولد التي تعزز وعيه بالكائنات الفردية. بالإضافة إلى تحسين جودة الصورة، فإن إسهاماتنا تخفف من فشلين رئيسيين في الطرق السابقة: (1) ظهور كائنات غير حقيقية دون صناديق حدود متناظرة في التخطيط، و(2) اندماج الكائنات في الصور نتيجة تقاطع صناديق الحدود في التخطيط. أظهرت الدراسات الكمية الواسعة والدراسات الاستبعادية الأثر الإيجابي لإسهاماتنا، حيث حقق نموذجنا أفضل النتائج مقارنة بالأساليب الرائدة سابقًا على كل من قاعدة بيانات COCO-Stuff و Visual Genome. وأخيرًا، نعالج أحد أهم قيود مقاييس التقييم المستخدمة في الأعمال السابقة بإدخال SceneFID -- وهي تعديل مركز حول الكائنات لمقياس المسافة الشهير Fréchet Inception Distance، وهو أكثر ملاءمة للصور ذات الكائنات المتعددة.