منذ 8 أشهر

الملخص

رغم النتائج المثيرة للإعجاب التي تحققت مؤخرًا في توليد الصور للكائنات الفردية والمجالات الفردية، لا يزال توليد المشاهد المعقدة التي تحتوي على كائنات متعددة أمرًا محفوفًا بالتحديات. في هذا البحث، نبدأ من فكرة أن النموذج يجب أن يكون قادرًا على فهم الكائنات الفردية والعلاقات بينها لكي يتمكن من توليد المشاهد المعقدة بشكل جيد. طريقة توليد الصور من التخطيط التي نقترحها، والتي نطلق عليها شبكة التوليد المركزية حول الكائنات (OC-GAN)، تعتمد على وحدة تماثل الرسم البياني للمشهد (SGSM) الجديدة. تقوم وحدة SGSM بتعلم تمثيل العلاقات المكانية بين الكائنات في المشهد، مما يؤدي إلى زيادة دقة التخطيط في نموذجنا. كما اقترحنا أيضًا تغييرات في آلية التحكم المولد التي تعزز وعيه بالكائنات الفردية. بالإضافة إلى تحسين جودة الصورة، فإن إسهاماتنا تخفف من فشلين رئيسيين في الطرق السابقة: (1) ظهور كائنات غير حقيقية دون صناديق حدود متناظرة في التخطيط، و(2) اندماج الكائنات في الصور نتيجة تقاطع صناديق الحدود في التخطيط. أظهرت الدراسات الكمية الواسعة والدراسات الاستبعادية الأثر الإيجابي لإسهاماتنا، حيث حقق نموذجنا أفضل النتائج مقارنة بالأساليب الرائدة سابقًا على كل من قاعدة بيانات COCO-Stuff و Visual Genome. وأخيرًا، نعالج أحد أهم قيود مقاييس التقييم المستخدمة في الأعمال السابقة بإدخال SceneFID -- وهي تعديل مركز حول الكائنات لمقياس المسافة الشهير Fréchet Inception Distance، وهو أكثر ملاءمة للصور ذات الكائنات المتعددة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار