Command Palette
Search for a command to run...
المحولات التراكيبية لإنشاء المشاهد
المحولات التراكيبية لإنشاء المشاهد
Larry Zitnick Dor Arad Hudson
الملخص
نقدّم نموذج GANformer2، وهو محول تكراري موجه نحو الكائنات، تم استكشافه لمهام النمذجة التوليدية. يدمج الشبكة مقدمات هيكلية قوية وواضحة، لتعكس الطبيعة التركيبية للمشاهد البصرية، ويُولّد الصور من خلال عملية متسلسلة. يعمل النموذج على مرحلتين: مرحلة تخطيط سريعة وخفيفة الوزن، حيث نرسم تخطيطًا عالي المستوى للمنظر، تليها مرحلة تنفيذ تعتمد على الانتباه، حيث يتم تحسين التخطيط وتطويره إلى صورة غنية وتفصيلية. يبتعد نموذجنا عن الهياكل التقليدية للشبكات التوليدية التنافسية (GAN) التي تتميز بفضاء خفي مسطح ومتسلسل، نحو تصميم شفاف يشجع على الكفاءة والتحكم والقابلية للتفسير. نُظهر مزايا وخصائص GANformer2 من خلال تقييم دقيق على مجموعة متنوعة من المجموعات البيانات، بدءًا من مشاهد CLEVR متعددة الكائنات وصولاً إلى صور COCO الصعبة، ما يُظهر قدرته على تحقيق أداءً متقدمًا في فئة الجودة البصرية والتنوع والاتساق. كما تُظهر التجارب الإضافية قدرة النموذج على فصل المكونات، وتوفر رؤى أعمق لعملية التوليد، حيث ينتقل خطوة بخطوة من مخطط أولي خشن، إلى تخطيط مفصل يأخذ بعين الاعتبار عمق الكائنات والعلاقات بينها، ثم إلى الصورة النهائية عالية الدقة التي تُظهر مشاهد واقعية حية ومعقدة. لمزيد من المعلومات حول تنفيذ النموذج، يُرجى زيارة: https://github.com/dorarad/gansformer