HyperAIHyperAI
منذ 2 أشهر

ReCo: توليد الصور من النص تحت السيطرة الإقليمية

Yang, Zhengyuan ; Wang, Jianfeng ; Gan, Zhe ; Li, Linjie ; Lin, Kevin ; Wu, Chenfei ; Duan, Nan ; Liu, Zicheng ; Liu, Ce ; Zeng, Michael ; Wang, Lijuan
ReCo: توليد الصور من النص تحت السيطرة الإقليمية
الملخص

في الآونة الأخيرة، أظهرت نماذج التحويل من النص إلى الصورة (T2I) على نطاق واسع أداءً مثيرًا للإعجاب في توليد صور عالية الدقة، ولكن مع قابلية تحكم محدودة، مثل تحديد المحتوى بدقة في منطقة محددة باستخدام وصف نصي حر. في هذا البحث، نقترح تقنية فعالة لتحقيق مثل هذا التحكم الإقليمي في توليد الصور من النص. نضيف إلى إدخالات نماذج T2I مجموعة إضافية من رموز الموضع التي تمثل الإحداثيات المكانية المُكَوَّنَة. يتم تحديد كل منطقة بأربعة رموز موضع لتمثيل الزاوية العلوية اليسرى والزاوية السفلية اليمنى، تليها وصف طبيعي بلغة طبيعية للمنطقة. ثم، نقوم بضبط نموذج T2I مدرب مسبقًا مع هذه الواجهة الإدخالية الجديدة. يُمكن نموذجنا الذي أطلقنا عليه اسم ReCo (Region-Controlled T2I) التحكم الإقليمي لأي كائنات يتم وصفها بواسطة نصوص إقليمية طبيعية بدلاً من تسميات الأشياء من مجموعة فئات مقيدة. عمليًا، حقق ReCo جودة صورة أفضل من نموذج T2I المعزز بكلمات موقع (FID: 8.82→7.36، SceneFID: 15.54→6.51 على COCO)، بالإضافة إلى وضع الأشياء بشكل أكثر دقة، مما يترجم إلى تحسين بنسبة 20.40% في دقة تصنيف المنطقة على COCO. علاوة على ذلك، أظهرنا أن ReCo يمكنه التحكم بشكل أفضل بعدد الأشياء والعلاقة المكانية وخواص المنطقة مثل اللون/الحجم، باستخدام الوصف الإقليمي الحر. أظهرت التقييم البشري لـ PaintSkill أن ReCo أكثر دقة بنسبة +19.28% و+17.21% في توليد صور ذات عدد صحيح للأشياء والعلاقة المكانية الصحيحة مقارنة بنموذج T2I.

ReCo: توليد الصور من النص تحت السيطرة الإقليمية | أحدث الأوراق البحثية | HyperAI