منذ 8 أشهر

الملخص

للفهم الحقيقي للعالم البصري، يجب أن تكون نماذجنا قادرة ليس فقط على التعرف على الصور بل أيضًا على إنشائها. لتحقيق هذا الهدف، تم إحراز تقدم مثير للإعجاب مؤخرًا في مجال إنشاء الصور من وصف اللغة الطبيعية. هذه الطرق تعطي نتائج مذهلة في مجالات محدودة مثل وصف الطيور أو الزهور، ولكنها تواجه صعوبة في إعادة إنتاج الجمل المعقدة التي تحتوي على العديد من الأشياء والعلاقات. لتجاوز هذا القيد، نقترح طريقة لإنشاء الصور من الرسوم البيانية للمشهد (Scene Graphs)، مما يمكّن من التفكير بشكل صريح حول الأشياء والعلاقات بينها. يستخدم نموذجنا التحويل الرسومي (Graph Convolution) لمعالجة الرسوم البيانية المدخلة، ويقوم بحساب تخطيط المشهد عن طريق التنبؤ بالصناديق الحدودية وأقنعة التقسيم للأجسام، ثم يقوم بتحويل التخطيط إلى صورة باستخدام شبكة تكرار متدرجة (Cascaded Refinement Network). يتم تدريب الشبكة بطريقة تنافسية ضد زوج من المميزات (Discriminators) لضمان خروجيات واقعية. نحن نتحقق من صحة أسلوبنا على قاعدة بيانات Visual Genome و COCO-Stuff، حيث تظهر النتائج النوعية والدراسات الاستبعادية واستطلاعات المستخدمين قدرة طريقتنا على إنشاء صور معقدة تحتوي على العديد من الأجسام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار