HyperAIHyperAI
منذ 2 أشهر

توليد الصور من الرسوم البيانية للمشهد

Johnson, Justin ; Gupta, Agrim ; Fei-Fei, Li
توليد الصور من الرسوم البيانية للمشهد
الملخص

للفهم الحقيقي للعالم البصري، يجب أن تكون نماذجنا قادرة ليس فقط على التعرف على الصور بل أيضًا على إنشائها. لتحقيق هذا الهدف، تم إحراز تقدم مثير للإعجاب مؤخرًا في مجال إنشاء الصور من وصف اللغة الطبيعية. هذه الطرق تعطي نتائج مذهلة في مجالات محدودة مثل وصف الطيور أو الزهور، ولكنها تواجه صعوبة في إعادة إنتاج الجمل المعقدة التي تحتوي على العديد من الأشياء والعلاقات. لتجاوز هذا القيد، نقترح طريقة لإنشاء الصور من الرسوم البيانية للمشهد (Scene Graphs)، مما يمكّن من التفكير بشكل صريح حول الأشياء والعلاقات بينها. يستخدم نموذجنا التحويل الرسومي (Graph Convolution) لمعالجة الرسوم البيانية المدخلة، ويقوم بحساب تخطيط المشهد عن طريق التنبؤ بالصناديق الحدودية وأقنعة التقسيم للأجسام، ثم يقوم بتحويل التخطيط إلى صورة باستخدام شبكة تكرار متدرجة (Cascaded Refinement Network). يتم تدريب الشبكة بطريقة تنافسية ضد زوج من المميزات (Discriminators) لضمان خروجيات واقعية. نحن نتحقق من صحة أسلوبنا على قاعدة بيانات Visual Genome و COCO-Stuff، حيث تظهر النتائج النوعية والدراسات الاستبعادية واستطلاعات المستخدمين قدرة طريقتنا على إنشاء صور معقدة تحتوي على العديد من الأجسام.

توليد الصور من الرسوم البيانية للمشهد | أحدث الأوراق البحثية | HyperAI