HyperAIHyperAI

Command Palette

Search for a command to run...

توليد الصور المتمحورة حول الكائنات من التخطيطات

Tristan Sylvain Pengchuan Zhang Yoshua Bengio R Devon Hjelm Shikhar Sharma

الملخص

رغم النتائج المثيرة للإعجاب التي تحققت مؤخرًا في توليد الصور للكائنات الفردية والمجالات الفردية، لا يزال توليد المشاهد المعقدة التي تحتوي على كائنات متعددة أمرًا محفوفًا بالتحديات. في هذا البحث، نبدأ من فكرة أن النموذج يجب أن يكون قادرًا على فهم الكائنات الفردية والعلاقات بينها لكي يتمكن من توليد المشاهد المعقدة بشكل جيد. طريقة توليد الصور من التخطيط التي نقترحها، والتي نطلق عليها شبكة التوليد المركزية حول الكائنات (OC-GAN)، تعتمد على وحدة تماثل الرسم البياني للمشهد (SGSM) الجديدة. تقوم وحدة SGSM بتعلم تمثيل العلاقات المكانية بين الكائنات في المشهد، مما يؤدي إلى زيادة دقة التخطيط في نموذجنا. كما اقترحنا أيضًا تغييرات في آلية التحكم المولد التي تعزز وعيه بالكائنات الفردية. بالإضافة إلى تحسين جودة الصورة، فإن إسهاماتنا تخفف من فشلين رئيسيين في الطرق السابقة: (1) ظهور كائنات غير حقيقية دون صناديق حدود متناظرة في التخطيط، و(2) اندماج الكائنات في الصور نتيجة تقاطع صناديق الحدود في التخطيط. أظهرت الدراسات الكمية الواسعة والدراسات الاستبعادية الأثر الإيجابي لإسهاماتنا، حيث حقق نموذجنا أفضل النتائج مقارنة بالأساليب الرائدة سابقًا على كل من قاعدة بيانات COCO-Stuff و Visual Genome. وأخيرًا، نعالج أحد أهم قيود مقاييس التقييم المستخدمة في الأعمال السابقة بإدخال SceneFID -- وهي تعديل مركز حول الكائنات لمقياس المسافة الشهير Fréchet Inception Distance، وهو أكثر ملاءمة للصور ذات الكائنات المتعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp