HyperAIHyperAI
منذ 2 أشهر

القياس المعياري التشخيصي والرسم التكراري للصور الموجهة بالتصميم

Cho, Jaemin ; Li, Linjie ; Yang, Zhengyuan ; Gan, Zhe ; Wang, Lijuan ; Bansal, Mohit
القياس المعياري التشخيصي والرسم التكراري للصور الموجهة بالتصميم
الملخص

التحكم المكاني هو قدرة أساسية في توليد الصور القابل للتحكم.قد أظهرت التطورات في توليد الصور ب导读 الإعدادات الناجحة نتائج واعدة على مجموعات البيانات داخل التوزيع (ID) ذات التكوينات المكانية المشابهة. ومع ذلك، فإن الأداء لهذه النماذج عند مواجهتها لعينات خارج التوزيع (OOD) ذات الإعدادات المكانية العشوائية والغير معروفة غير واضح. في هذا البحث، نقترح LayoutBench، وهو معيار تشخيصي لتوليد الصور ب导读 الإعدادات يفحص أربع فئات من مهارات التحكم المكاني: العدد، الموقع، الحجم، والشكل. نقيم نموذجين حديثين وممثلين لطريقة توليد الصور ب导读 الإعدادات ونلاحظ أن التحكم الجيد في الإعدادات داخل التوزيع قد لا يعمم بشكل جيد إلى الإعدادات المكانية العشوائية في العالم الحقيقي (مثل الأشياء على الحدود). بعد ذلك، نقترح IterInpaint، وهو خط أساس جديد يولد المناطق الأمامية والخلفية خطوة بخطوة عبر عملية الملء بالرسم (inpainting)، مما يظهر قابلية أكبر للتعميم من النماذج الموجودة على الإعدادات خارج التوزيع في LayoutBench. نقوم بتقييم كمي وكيفي وتحليل دقيق للأربع مهارات في LayoutBench لتحديد نقاط الضعف في النماذج الموجودة. نقدم دراسات تقليص شاملة على IterInpaint، بما في ذلك نسبة مهمة التدريب، التقليم واللصق مقابل إعادة الرسم (repaint)، وتسلسل التوليد. وأخيرًا، نقيم الأداء بدون رؤية سابقة لنماذج توليد الصور ب导读 الإعدادات التي تم تدريبها مسبقًا على LayoutBench-COCO، وهو معيارنا الجديد للإعدادات خارج التوزيع مع الأشياء الحقيقية، حيث يتميز IterInpaint بأداء أفضل باستمرار من الخطوط الأساسية الأكثر تقدمًا (SOTA) في جميع التقسيمات الأربعة. موقع المشروع: https://layoutbench.github.io

القياس المعياري التشخيصي والرسم التكراري للصور الموجهة بالتصميم | أحدث الأوراق البحثية | HyperAI