الملخص

في الآونة الأخيرة، حققت نماذج الانتشار نجاحًا كبيرًا في توليد الصور.ومع ذلك، عند الحديث عن توليد الصور من التخطيطات حيث غالبًا ما تحتوي الصورة على مشهد معقد يتضمن العديد من الأشياء، فإن كيفية السيطرة القوية على خريطة التخطيط الشاملة وعلى كل جزء مفصل من الأشياء لا تزال مهمة صعبة. في هذا البحث، نقترح نموذج انتشار يُسمى LayoutDiffusion يمكنه الحصول على جودة توليد أعلى وقابلية للتحكم أكبر مقارنة بالأعمال السابقة.للتغلب على تحدي دمج النمط المتعدد للصورة والتخطيط، نقترح بناء رقع صورية هيكلية تحتوي على معلومات المنطقة وتحويل الصورة المرقطة إلى تخطيط خاص لدمجه مع التخطيط العادي بشكل موحد. بالإضافة إلى ذلك، تم اقتراح وحدة دمج التخطيط (LFM) وانتباه المتقاطع الواعي بالأشياء (OaCA) لنمذجة العلاقات بين الأشياء المتعددة والمصممة لتكون واعية بالأشياء حساسة للموقع، مما يسمح بالتحكم الدقيق في المعلومات ذات الصلةatial.التجارب الواسعة أظهرت أن نموذجنا LayoutDiffusion يتفوق على أفضل الأساليب السابقة في مقاييس FID وCAS بنسبة 46.35٪ و26.70٪ على مجموعة بيانات COCO-stuff وبنسبة 44.29٪ و41.82٪ على مجموعة بيانات VG. الرمز البرمجي متاح على الرابط: https://github.com/ZGCTroy/LayoutDiffusion.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار